Les disfluences (pauses, hésitations, répétitions...) sont caractéristiques de l’oralité mais représentent encore un défi pour le traitement automatique des langues. Nous proposons d’analyser plus de 100h de français en combinant alignement automatique avec variantes de prononciation et jugement humain pour identifier les causes des erreurs d’alignement sur des phonèmes particuliers du français: les consonnes de liaison. Les résultats montrent que les disfluences sont en effet la deuxième source d’erreurs. La plus représentée est la répétition (chez les femmes comme chez les hommes), qui favorise l’alignement erroné avec [t] ou [z], suivi de la pause silencieuse, qui favorise [p]. En comparant ces données mal alignées à un ensemble similaire de données bien alignées, nous montrons que la présence de disfluences dans un empan de quatre mots est corrélée aux erreurs d’alignement, mais que cet effet s’annule si la disfluence est à un mot de distance ou plus du site de liaison.
Cite as: Hutin, M., Weng, C., Adda-Decker, M., Vasilescu, I., Lamel, L. (2022) Disfluences et erreurs d’alignement au niveau du phonème : le cas des consonnes de liaison en français. Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022, 452-461, doi: 10.21437/JEP.2022-48
@inproceedings{hutin22_jep, author={Mathilde Hutin and Caihong Weng and Martine Adda-Decker and Ioana Vasilescu and Lori Lamel}, title={{Disfluences et erreurs d’alignement au niveau du phonème : le cas des consonnes de liaison en français}}, year=2022, booktitle={Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022}, pages={452--461}, doi={10.21437/JEP.2022-48} }