2022
pdf
bib
Techniques de synthèse vocale neuronale à l’épreuve des données d’apprentissage non dédiées : les livres audio amateurs en français [Neural speech synthesis techniques put to the test with non-dedicated training data: amateur French audio books]
Aghilas Sini
|
Lily Wadoux
|
Antoine Perquin
|
Gaëlle Vidal
|
David Guennec
|
Damien Lolive
|
Pierre Alain
|
Nelly Barbot
|
Jonathan Chevelu
|
Arnaud Delhay
Traitement Automatique des Langues, Volume 63, Numéro 2 : Traitement automatique des langues intermodal et multimodal [Cross-modal and multimodal natural language processing]
2016
pdf
bib
abs
Se concentrer sur les différences : une méthode d’évaluation subjective efficace pour la comparaison de systèmes de synthèse (Focus on differences : a subjective evaluation method to efficiently compare TTS systems * )
Jonathan Chevelu
|
Damien Lolive
|
Sébastien Le Maguer
|
David Guennec
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
En proposant une nouvelle approche de synthèse de la parole, les études comportent généralement une évaluation subjective d’échantillons acoustiques produits par un système de référence et un nouveau système. Ces échantillons sont produits à partir d’un petit ensemble de phrases choisies aléatoirement dans un unique domaine. Ainsi, statistiquement, des échantillons pratiquement identiques sont présentés et réduisent les écarts de mesure entre les systèmes, au risque de les considérer comme non significatifs. Pour éviter cette problématique méthodologique, nous comparons deux systèmes sur des milliers d’échantillons de différents domaines. L’évaluation est réalisée uniquement sur les paires d’échantillons les plus pertinentes, c’est-à-dire les plus différentes acoustiquement. Cette méthode est appliquée sur un système de synthèse de type HTS et un second par sélection d’unités. La comparaison avec l’approche classique montre que cette méthode révèle des écarts qui jusqu’alors n’étaient pas significatifs.
pdf
bib
abs
Patrons Rythmiques et Genres Littéraires en Synthèse de la Parole (How to improve rhythmic patterns according to literary genre in synthesized speech ⇤ )
Elisabeth Delais-Roussarie
|
Damien Lolive
|
Hiyon Yoo
|
David Guennec
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Ces vingt dernières années, la qualité de la parole synthétique s’est améliorée grâce notamment à l’émergence de nouvelles techniques comme la synthèse par corpus. Mais les patrons rythmiques obtenus ne sont pas toujours perçus comme très naturels. Dans ce papier, nous comparons les patrons rythmiques observés en parole naturelle et synthétique pour trois genres littéraires. Le but de ce travail est d’étudier comment le rythme pourrait être amélioré en synthèse de parole. La comparaison des patrons rythmiques est réalisée grâce à une analyse de la durée relativement à la structure prosodique, les données audio provenant de six comptines, quatre poèmes et deux extraits de conte. Les résultats obtenus laissent penser que les différences rythmiques entre parole naturelle et synthétique sont principalement dues au marquage de la structure prosodique, particulièrement au niveau des groupes intonatifs. De fait, le taux d’allongement des syllabes accentuées en fin de groupes intonatifs est beaucoup plus important en synthèse que dans la parole naturelle.
pdf
bib
abs
Une pénalité floue fondée phonologiquement pour améliorer la Sélection d’Unité (A Phonologically Motivated Penalty To Improve Unit Selection)
David Guennec
|
Damien Lolive
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Les systèmes de synthèse par corpus reposent, sauf de rares exceptions, sur des coûts cibles et des coûts de concaténation pour sélectionner la meilleure séquence d’unités. Le rôle du coût de concaténation est de s’assurer que l’assemblage de deux segments de parole ne causera l’apparition d’aucun artefact acoustique. Pour cette tâche, des distances acoustiques (MFCC, F0) sont généralement utilisées, mais dans de nombreux cas cela ne suffit pas. Dans cet article, nous introduisons une pénalité héritée du domaine de la couverture de corpus dans le coût de concaténation afin de bloquer certaines concaténations en fonction de la classe phonologique des diphones à concaténer. En outre, une seconde version faisant appel à une fonction floue est proposée pour relâcher la pénalité en fonction du positionnement du coût de concaténation par rapport à sa distribution. Une évaluation objective montre que la pénalité est efficace et amène à un meilleur classement des séquences d’unités candidates au cours de la sélection. Une évaluation subjective révèle une performance supérieure de l’approche floue.