Les réseaux de neurones bouleversent depuis plusieurs années les applications de traitement automatique de la parole. Cependant, le bon de performances rendu possible par ces technologies se fait généralement au détriment de la compréhensibilité et de l'interprétabilité de ces nouveaux modèles. Pourtant, l'apprentissage statistique, au coeur de ces nouveaux usages, constitue une source potentielle d'informations importante sur le langage, à condition de réussir à identifier et localiser ces paramètres dans des réseaux de plusieurs millions de neurones. Ce papier propose une étude des plongements internes d'un modèle de synthèse vocale de type Tacotron2 entraîné sur le Français. Cette analyse suggère que le réseau apprend à représenter sa séquence d'entrée en une suite de cibles acoustiques et phonétiques, dépendantes de leur contexte. La mise en évidence de l'encodage de ces paramètres permet d'imaginer leur contrôle de manière plus naturelle.
Cite as: Lenglet, M., Perrotin, O., Bailly, G. (2022) Modélisation de la Parole avec Tacotron2 : Analyse acoustique et phonétique des plongements de caractère. Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022, 788-796, doi: 10.21437/JEP.2022-83
@inproceedings{lenglet22_jep, author={Martin Lenglet and Olivier Perrotin and Gérard Bailly}, title={{Modélisation de la Parole avec Tacotron2 : Analyse acoustique et phonétique des plongements de caractère}}, year=2022, booktitle={Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022}, pages={788--796}, doi={10.21437/JEP.2022-83} }