Dans le domaine de la synthèse vocale, le clonage de voix correspond à la production de parole imitant la voix d'un locuteur cible, à partir de texte et d'un échantillon audio du locuteur. Les systèmes de clonage de voix se basent sur des approches neuronales de Text-to-Speech, entraînées sur de grands corpus multi-locuteurs. Couplées à des encodeurs de locuteurs, elles peuvent produire de la parole de bonne qualité avec peu de données du locuteur cible. Or, si la voix de ce locuteur est abîmée, son contenu phonétique peut être limité. À notre connaissance, l'impact de telles contraintes reste à étudier. Cet article présente les résultats d'expériences préliminaires sur le sujet, ainsi que des spécifications à propos des modèles et des données utilisées.
Cite as: Wadoux, L., Barbot, N., Chevelu, J., Lolive, D. (2022) Impact du contenu phonétique sur les plongements de locuteurs pour le clonage de voix : vers l'application aux pathologies vocales. Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022, 814-822, doi: 10.21437/JEP.2022-86
@inproceedings{wadoux22_jep, author={Lily Wadoux and Nelly Barbot and Jonathan Chevelu and Damien Lolive}, title={{Impact du contenu phonétique sur les plongements de locuteurs pour le clonage de voix : vers l'application aux pathologies vocales}}, year=2022, booktitle={Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022}, pages={814--822}, doi={10.21437/JEP.2022-86} }