Nous décrivons dans ce travail les résultats obtenus dans le cadre du développement d'outils de reconnaissance de la parole pour l'aide à la documentation linguistique en prenant comme cas d'étude le japhug. L'objectif consiste à réduire l'effort de transcription fourni les linguistes au fil de leur travail de documentation de langues rares. Nous montrons comment une approche neuronale fondée sur la spécialisation d'un modèle de représentation générique pré-entrainé (XSLR) reposant sur une architecture de type Transformer permet d'améliorer significativement la qualité de la transcription phonémique automatique dans le cas où seules quelques heures de données annotées sont disponibles, et surtout de progresser jusqu'à la reconnaissance automatique de mots. Les expériences que nous décrivons montrent toutefois les difficultés à mettre en œuvre ce type d'approche que ça soit en terme de stabilité de l'apprentissage ou en terme de l'évaluation de leur qualité et de leur intérêt pour les linguistes de terrain.
Cite as: Guillaume, S., Wisniewski, G., Macaire, C., Jacques, G., Michaud, A., Galliot, B., Coavoux, M., Rossato, S., Nguyên, M.-C., Fily, M. (2022) Les modèles pré-entraînés à l'épreuve des langues rares : expériences de reconnaissance de mots sur la langue japhug (sino-tibétain). Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022, 491-500, doi: 10.21437/JEP.2022-52
@inproceedings{guillaume22_jep, author={Severine Guillaume and Guillaume Wisniewski and Cécile Macaire and Guillaume Jacques and Alexis Michaud and Benjamin Galliot and Maximin Coavoux and Solange Rossato and Minh-Châu Nguyên and Maxime Fily}, title={{Les modèles pré-entraînés à l'épreuve des langues rares : expériences de reconnaissance de mots sur la langue japhug (sino-tibétain)}}, year=2022, booktitle={Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022}, pages={491--500}, doi={10.21437/JEP.2022-52} }