ISCA Archive JEP 2022
ISCA Archive JEP 2022

Modèles neuronaux pré-appris par auto-supervision sur des enregistrements de parole en français

Solène Evain, Ha Nguyen, Hang Le, Marcely Zanon Boito, Salima Mdhaffar, Sina Alisamir, Ziyi Tong, Natalia Tomashenko, Marco Dinarelli, Titouan Parcollet, Alexandre Allauzen, Yannick Estève, Benjamin Lecouteux, François Portet, Solange Rossato, Fabien Ringeval, Didier Schwab, Laurent Besacier

L'apprentissage auto-supervisé a ouvert des perspectives prometteuses dans de nombreux domaines comme la vision par ordinateur, le traitement automatique de la langue ou celui de la parole. Les modèles pré-appris sur de grandes quantités de données non étiquetées peuvent être ajustés sur de petits ensembles de données transcrites manuellement. Ceux de type wav2vec2.0 ont montré des performances remarquables pour la reconnaissance automatique de la parole. Les premiers modèles partagés à la communauté ayant été appris sur des données en anglais ou multilingues, nous proposons dans cet article sept modèles de type wav2vec2.0, appris sur 1 000, 2 600, 3 000 et 7 000 heures de parole en français. Leur entraînement nécessitant des capacités de calcul très importantes, et dans un esprit de science ouverte, ceux-ci sont librement accessibles. Des résultats expérimentaux sur la reconnaissance automatique de la parole sont également présentés et confirment le bénéfice de l'utilisation de tels modèles.


doi: 10.21437/JEP.2022-45

Cite as: Evain, S., Nguyen, H., Le, H., Boito, M.Z., Mdhaffar, S., Alisamir, S., Tong, Z., Tomashenko, N., Dinarelli, M., Parcollet, T., Allauzen, A., Estève, Y., Lecouteux, B., Portet, F., Rossato, S., Ringeval, F., Schwab, D., Besacier, L. (2022) Modèles neuronaux pré-appris par auto-supervision sur des enregistrements de parole en français. Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022, 424-433, doi: 10.21437/JEP.2022-45

@inproceedings{evain22b_jep,
  author={Solène Evain and Ha Nguyen and Hang Le and Marcely Zanon Boito and Salima Mdhaffar and Sina Alisamir and Ziyi Tong and Natalia Tomashenko and Marco Dinarelli and Titouan Parcollet and Alexandre Allauzen and Yannick Estève and Benjamin Lecouteux and François Portet and Solange Rossato and Fabien Ringeval and Didier Schwab and Laurent Besacier},
  title={{Modèles neuronaux pré-appris par auto-supervision sur des enregistrements de parole en français}},
  year=2022,
  booktitle={Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022},
  pages={424--433},
  doi={10.21437/JEP.2022-45}
}