Mesure de similarité fondée sur des réseaux de neurones siamois pour le doublage de voix

Adrien Gresse, Richard Dufour, Vincent Labatut, Mickael Rouvier, Jean-François Bonastre


Le doublage vocal d'une œuvre culturelle permet sa diffusion vers une audience plus large. Le processus de sélection de voix dans une nouvelle langue, intégralement réalisé par un opérateur humain, est appelé casting vocal. Cette sélection dépasse le simple cadre de la proximité acoustique entre deux voix, intégrant de nombreux critères plus subjectifs qui peuvent être liés notamment à des choix socioculturels, émotionnels... Dans ce papier, nous proposons une approche par réseaux de neurones siamois mesurant la proximité entre la voix originale et la voix dans la langue cible, en intégrant la notion de similarité entre les voix non pas d'un point de vue purement acoustique mais également réceptif. Les premiers résultats obtenus montrent, grâce à un test d'hypothèse statistique, que des informations sont contenues dans les paramètres acoustiques pour un même personnage permettant à une voix d'être associée à une autre.


 DOI: 10.21437/JEP.2018-2

Cite as: Gresse, A., Dufour, R., Labatut, V., Rouvier, M., Bonastre, J. (2018) Mesure de similarité fondée sur des réseaux de neurones siamois pour le doublage de voix. Proc. XXXIIe Journées d’Études sur la Parole, 10-18, DOI: 10.21437/JEP.2018-2.


@inproceedings{Gresse2018,
  author={Adrien Gresse and Richard Dufour and Vincent Labatut and Mickael Rouvier and Jean-François Bonastre},
  title={{Mesure de similarité fondée sur des réseaux de neurones siamois pour le doublage de voix}},
  year=2018,
  booktitle={Proc. XXXIIe Journées d’Études sur la Parole},
  pages={10--18},
  doi={10.21437/JEP.2018-2},
  url={http://dx.doi.org/10.21437/JEP.2018-2}
}