Olivier Perrotin


2024

pdf bib
Exploration de la représentation multidimensionnelle de paramètres acoustiques unidimensionnels de la parole extraits par des modèles profonds non supervisés.
Maxime Jacquelin | Maëva Garnier | Laurent Girin | Rémy Vincent | Olivier Perrotin
Actes des 35èmes Journées d'Études sur la Parole

Cet article propose une méthodologie pour interpréter les dimensions de variation de la parole conversationnelle, extraites de façon non-supervisée, et sur des données multilocuteurs, par un algorithme d’apprentisage profond (Auto-Encodeur Variationnel). Par des analyses de corrélation et de similarité cosinus, nous montrons que la distribution de la fréquence fondamentale et de la fréquence centrale des trois premiers formants de l’ensemble d’apprentissage est encodée par une direction dédiée de l’espace latent. Lorsque la distribution est multimodale, les différents modes du paramètre acoustique sont encodés dans des dimensions distinctes. De plus, nous avons identifié les directions expliquant la variation des paramètres au sein de chaque mode, et entre eux.

pdf bib
Peut-on marquer un focus contrastif par le geste manuel en suppléance vocale ?
Delphine Charuau | Nathalie Henrich Bernardoni | Silvain Gerber | Olivier Perrotin
Actes des 35èmes Journées d'Études sur la Parole

Un paradigme expérimental élicitant la focalisation sur une syllabe a été élaboré dans une tâche de conversion chuchotement-parole avec contrôle manuel de l’intonation. Deux interfaces de contrôle intonatif ont été testées : contrôle isométrique par pression du doigt et isotonique par rotation du poignet. La réalisation de la focalisation par le geste a été observée, démontrant un transfert du contrôle naturel vers manuel de l’intonation. Les résultats sont également discutés en fonction de la position de la syllabe dans l’énoncé, et en fonction de l’interface de contrôle gestuel employée.

pdf bib
Emotags: Computer-Assisted Verbal Labelling of Expressive Audiovisual Utterances for Expressive Multimodal TTS
Gérard Bailly | Romain Legrand | Martin Lenglet | Frédéric Elisei | Maëva Hueber | Olivier Perrotin
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

We developped a web app for ascribing verbal descriptions to expressive audiovisual utterances. These descriptions are limited to lists of adjectives that are either suggested via a navigation in emotional latent spaces built using discriminant analysis of BERT embeddings or entered freely by subjects. We show that such verbal descriptions collected on-line via Prolific on massive data (310 participants, 12620 labelled utterances up-to-now) provide Expressive Multimodal Text-to-Speech Synthesis with precise verbal control over desired emotional content