2020
pdf
bib
abs
FlexEval, création de sites web légers pour des campagnes de tests perceptifs multimédias (FlexEval, creation of light websites for multimedia perceptual test campaigns)
Cédric Fayet
|
Alexis Blond
|
Grégoire Coulombel
|
Claude Simon
|
Damien Lolive
|
Gwénolé Lecorvé
|
Jonathan Chevelu
|
Sébastien Le Maguer
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 4 : Démonstrations et résumés d'articles internationaux
Nous présentons FlexEval, un outil de conception et déploiement de tests perceptifs multimédias sous la forme d’un site web léger. S’appuyant sur des technologies standards et ouvertes du web, notamment le framework Flask, FlexEval offre une grande souplesse de conception, des gages de pérennité, ainsi que le support de communautés actives d’utilisateurs. L’application est disponible en open-source via le dépôt Git
https://gitlab.inria.fr/expression/tools/flexeval.
2018
pdf
bib
Creating New Language and Voice Components for the Updated MaryTTS Text-to-Speech Synthesis Platform
Ingmar Steiner
|
Sébastien Le Maguer
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)
2016
pdf
bib
abs
Se concentrer sur les différences : une méthode d’évaluation subjective efficace pour la comparaison de systèmes de synthèse (Focus on differences : a subjective evaluation method to efficiently compare TTS systems * )
Jonathan Chevelu
|
Damien Lolive
|
Sébastien Le Maguer
|
David Guennec
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
En proposant une nouvelle approche de synthèse de la parole, les études comportent généralement une évaluation subjective d’échantillons acoustiques produits par un système de référence et un nouveau système. Ces échantillons sont produits à partir d’un petit ensemble de phrases choisies aléatoirement dans un unique domaine. Ainsi, statistiquement, des échantillons pratiquement identiques sont présentés et réduisent les écarts de mesure entre les systèmes, au risque de les considérer comme non significatifs. Pour éviter cette problématique méthodologique, nous comparons deux systèmes sur des milliers d’échantillons de différents domaines. L’évaluation est réalisée uniquement sur les paires d’échantillons les plus pertinentes, c’est-à-dire les plus différentes acoustiquement. Cette méthode est appliquée sur un système de synthèse de type HTS et un second par sélection d’unités. La comparaison avec l’approche classique montre que cette méthode révèle des écarts qui jusqu’alors n’étaient pas significatifs.
pdf
bib
abs
De l’utilisation de descripteurs issus de la linguistique computationnelle dans le cadre de la synthèse par HMM (Toward the use of information density based descriptive features in HMM based speech synthesis)
Sébastien Le Maguer
|
Bernd Moebius
|
Ingmar Steiner
|
Damien Lolive
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Durant les dernières décennies, la modélisation acoustique effectuée par les systèmes de synthèse de parole paramétrique a fait l’objet d’une attention particulière. Toutefois, dans la plupart des systèmes connus, l’ensemble des descripteurs linguistiques utilisés pour représenter le texte reste identique. Plus specifiquement, la modélisation de la prosodie reste guidée par des descripteurs de bas niveau comme l’information d’accentuation de la syllabe ou bien l’étiquette grammaticale du mot. Dans cet article, nous proposons d’intégrer des informations basées sur la prédictibilité d’un évènement (la syllabe ou le mot). Plusieurs études indiquent une corrélation forte entre cette mesure, fortement présente dans la linguistique computationnelle, et certaines spécificités lors de la production humaine de la parole. Notre hypothèse est donc que l’ajout de ces descripteurs améliore la modélisation de la prosodie. Cet article se focalise sur une analyse objective de l’apport de ces descripteurs sur la synthèse HMM pour la langue anglaise et française.
2012
pdf
bib
Évaluation segmentale du système de synthèse HTS pour le français (Segmental evaluation of HTS) [in French]
Sébastien Le Maguer
|
Nelly Barbot
|
Olivier Boeffard
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP
pdf
bib
Vers une annotation automatique de corpus audio pour la synthèse de parole (Towards Fully Automatic Annotation of Audio Books for Text-To-Speech (TTS) Synthesis) [in French]
Olivier Boëffard
|
Laure Charonnat
|
Sébastien Le Maguer
|
Damien Lolive
|
Gaëlle Vidal
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP
pdf
bib
abs
Towards Fully Automatic Annotation of Audio Books for TTS
Olivier Boeffard
|
Laure Charonnat
|
Sébastien Le Maguer
|
Damien Lolive
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)
Building speech corpora is a first and crucial step for every text-to-speech synthesis system. Nowadays, the use of statistical models implies the use of huge sized corpora that need to be recorded, transcribed, annotated and segmented to be usable. The variety of corpora necessary for recent applications (content, style, etc.) makes the use of existing digital audio resources very attractive. Among all available resources, audiobooks, considering their quality, are interesting. Considering this framework, we propose a complete acquisition, segmentation and annotation chain for audiobooks that tends to be fully automatic. The proposed process relies on a data structure, Roots, that establishes the relations between the different annotation levels represented as sequences of items. This methodology has been applied successfully on 11 hours of speech extracted from an audiobook. A manual check, on a part of the corpus, shows the efficiency of the process.