L'auto-encodeur variationnel (AEV) est un modèle génératif profond permettant d'apprendre de façon auto-supervisé des représentations latentes compactes, à partir de données complexes de grande dimension. Dans le modèle AEV original, les vecteurs de données d'entrée sont traités indépendamment. Ces dernières années, plusieurs travaux ont proposé différentes extensions de l'AEV afin de traiter des données séquentielles (notamment temporelles). Ces modèles utilisent classiquement des réseaux de neurones récurrents pour tenir compte non seulement des dépendances entre les vecteurs d'une séquence d'entrée, mais également celles entre les représentations latentes correspondantes. Nous avons récemment effectué une revue complète de ces modèles et les avons unifiés en une classe générale appelée auto-encodeurs variationnels dynamiques (AEVDs). Dans le présent article, nous présentons cette classe de modèles et illustrons leur fort potentiel pour la modélisation des (spectrogrammes de) signaux de parole avec des expériences en analyse-resynthèse.
Cite as: Girin, L., Bie, X., Leglaive, S., Hueber, T., Alameda-Pineda, X. (2022) Les auto-encodeurs variationnels dynamiques et leur application à la modélisation de spectrogrammes de parole. Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022, 655-663, doi: 10.21437/JEP.2022-69
@inproceedings{girin22_jep, author={Laurent Girin and Xiaoyu Bie and Simon Leglaive and Thomas Hueber and Xavier Alameda-Pineda}, title={{Les auto-encodeurs variationnels dynamiques et leur application à la modélisation de spectrogrammes de parole}}, year=2022, booktitle={Proc. XXXIVe Journées d'Études sur la Parole -- JEP 2022}, pages={655--663}, doi={10.21437/JEP.2022-69} }