Les performances des systèmes de reconnaissance automatique de la parole d'enfants n'égalent pas celles des systèmes adultes: la parole d'enfant est difficile à reconnaître et peu de données sont disponibles en Français. Nous faisons de plus face ici à la présence d'erreurs de lecture de jeunes enfants. Nous adaptons un système Transformer end-to-end à la parole d'enfants apprenants lecteurs. Un entraînement multi-objectif avec une fonction Connectionist Temporal Classification (CTC) et un décodage joint CTC/attention réduit le taux d'erreur phonème (PER) de 22,9% à 19,6%. Nous combinons également une augmentation par ajout de bruit de salle de classe et une augmentation innovante par simulation d'erreurs de lecture pour améliorer la robustesse du système, et atteignons un PER de 15,1%. Des analyses détaillées montrent que le système est plus robuste au bruit, et que l'ajout de la fonction CTC et l'augmentation d'erreurs synthétiques aident à mieux reconnaître les erreurs des enfants.
Cite as: Gelin, L., Pellegrini, T., Pinquier, J., Daniel, M. (2022) Améliorations d’un système Transformer de reconnaissance de phonèmes appliqué à la parole d'enfants apprenants lecteurs. Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022, 520-529, doi: 10.21437/JEP.2022-55
@inproceedings{gelin22_jep, author={Lucile Gelin and Thomas Pellegrini and Julien Pinquier and Morgane Daniel}, title={{Améliorations d’un système Transformer de reconnaissance de phonèmes appliqué à la parole d'enfants apprenants lecteurs}}, year=2022, booktitle={Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022}, pages={520--529}, doi={10.21437/JEP.2022-55} }