La parole superposée correspond à l'activité simultanée de plusieurs locuteurs dans un enregistrement audio. Elle est source de dégradation des performances des modèles de traitement automatique de la parole. C'est notamment le cas dans le contexte de la segmentation et du regroupement en locuteurs. La détection de parole superposée détermine les instants où ces évènements interviennent. La généralisation de l'utilisation des réseaux de neurones a permis un gain significatif en performances sur cette tâche. La détection tend cependant à se dégrader en conditions de parole distante. Les travaux présentés étudient l'utilisation de mécanismes d'auto-attention pour combiner les canaux issus des différents microphones d'une antenne. Cette approche est mise en œuvre dans le contexte de la détection de parole superposée distante et permet de s'approcher des performances obtenues en champ proche.
Cite as: Mariotte, T., Larcher, A., Montrésor, S., Thomas, J.-H. (2022) Détection de Parole Superposée Multicanal à l'aide de Mécanismes d'Auto-Attention. Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022, 193-201, doi: 10.21437/JEP.2022-21
@inproceedings{mariotte22_jep, author={Théo Mariotte and Anthony Larcher and Silvio Montrésor and Jean-Hugh Thomas}, title={{Détection de Parole Superposée Multicanal à l'aide de Mécanismes d'Auto-Attention}}, year=2022, booktitle={Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022}, pages={193--201}, doi={10.21437/JEP.2022-21} }