Cédric Gendrot

Also published as: Cedric Gendrot

2024

Étude en temps réel de la fusion des /a/ ~ /ɑ/ en français depuis 1925
Juliusz Cęcelewski | Cédric Gendrot | Martine Adda-Decker | Philippe Boula de Mareüil
Actes des 35èmes Journées d'Études sur la Parole

Cette étude explore la variation diachronique de la réalisation des voyelles /a/ ~ /ɑ/ du français en position finale de mot dans la parole déclamatoire/journalistique de 1925 à 2023. Nos données comprennent deux corpus préexistants – le corpus d’archives INA (1940–1997) et le corpus ESTER (2000–2004) – ainsi que deux nouveaux corpus composés d’enregistrements issus des Archives de la Parole d’Hubert Pernot (1925–1929), de Radio France et de YouTube (2020–2023).Nos résultats indiquent une postériorisation du /a/ vers une position plus centrale et, dans une moindre mesure, une antériorisations du /ɑ/, qui ont abouti à la neutralisation et la fusion acoustique des deux phonèmes au cours du XXe siècle. Les résultats sont discutés à la lumière de l’évolution globale du système des voyelles à double timbre en français.

pdf bib abs

Comparaison de mesures pour la détection automatique de déviance dans la dysarthrie ataxique
Natacha Miniconi | Cédric Gendrot | Angélina Bourbon | Leonardo Lancia | Cécile Fougeron
Actes des 35èmes Journées d'Études sur la Parole

Cette étude explore l’utilisation d’un Réseau de Neurones Convolutifs (CNN) pour distinguer la parole de patients dysarthriques ataxiques de celle de locuteurs neurotypiques, en utilisant diverses entrées. L’objectif est d’extraire automatiquement des informations pertinentes sur les troubles de la parole. Le CNN est utilisé pour exploiter les caractéristiques temporelles et spectrales des signaux de parole via des spectrogrammes, des trajectoires de formants et des courbes de modulation cepstrale. Comparé à un Multi-Layer Perceptron (MLP) alimenté par des mesures acoustico-phonétiques ciblées sur la modulation cepstrale, le CNN présente de meilleurs scores de classification dans la distinction entre dysarthrie et non dysarthrie, en particulier avec la modulation cepstrale. La population CTRL obtient de meilleurs taux de classification que la population SCA avec un MLP, alors qu’on on observe l’inverse avec un CNN.

pdf bib

Détection de la nasalité en parole à partir de wav2vec 2.0 [Detecting Nasality in Speech Using Neural Models]
Lila Kim | Cédric Gendrot
Traitement Automatique des Langues, Volume 64, Numéro 3 : Explicabilité des modèles de TAL [Explainability of NLP models]

pdf bib abs

La sonorité n’est pas l’intensité: le cas des diphtongues dans une langue tonale
Yunzhuo Xiang | Jiayin Gao | Cédric Gendrot
Actes des 35èmes Journées d'Études sur la Parole

Cette étude explore le lien entre la sonorité et l’intensité dans la production des diphtongues ouvrantes et fermantes en mandarin de Pékin. Étant donné qu’une voyelle ouverte est considérée comme plus sonore qu’une voyelle fermée, nous nous attendons à constater une augmentation d’intensité dans une diphtongue ouvrante et une diminution d’intensité dans une diphtongue fermante. Or, nos résultats, basés sur les modèles GAMM (modèles additifs généralisés à l’effet mixte) révèlent un pattern différent de nos attentes : la dynamique d’intensité au sein de la diphtongue n’est pas liée à l’aperture vocalique. En revanche, conformément aux études précédentes, nous trouvons une corrélation positive entre la F0 et l’intensité. Nous interrogeons ainsi sur la validité de définir la sonorité à base de l’intensité seule. Enfin, nous discutons du rôle de la F0 dans la définition de la sonorité et l’apport de notre étude pour modéliser la sonorité dans une langue tonale.

pdf bib abs

Identification du locuteur : ouvrir la boîte noire
Carole Millot | Cédric Gendrot | Jean-François Bonastre
Actes des 35èmes Journées d'Études sur la Parole

L’explicabilité des systèmes relevant du deep learning est devenue un enjeu central ces dernières années, dans le droit européen comme le domaine criminalistique. L’approche BA-LR introduit en identification du locuteur un nouveau paradigme de modélisation : elle fait émerger automatiquement les attributs partagés par un groupe de locuteurs et qui sous-entendent la discrimination de ceux-ci. Le score produit est décomposable au niveau des attributs, ce qui augmente significativement l’explicabilité de la méthode. Cette étude propose de compléter la caractérisation des attributs obtenus par le BA-LR, à l’aide de paramètres de qualité de voix. L’analyse suggère que plusieurs attributs utilisent les types de phonation pour regrouper les locuteurs, ceux-ci encodant des informations humainement perceptibles. Cet article pose ainsi des bases pour l’analyse acoustique des attributs, qui permettra à terme d’utiliser le BA-LR dans le cadre du profilage vocal.

pdf bib abs

Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques
Lila Kim | Cedric Gendrot
Actes des 35èmes Journées d'Études sur la Parole

L’apprentissage auto-supervisé, particulièrement dans le contexte de la parole, a démontré son efficacité dans diverses tâches telles que la reconnaissance du locuteur et la reconnaissance de la parole. Notre question de recherche se concentre sur l’efficacité des représentations vectorielles - extraites de phonèmes - plus courtes par rapport à des séquences plus longues dans la détection de la nasalité. Deux approches distinctes ont été étudiées : extraire des vecteurs sur la durée du phonème et prendre des séquences plus longues avec une seconde ajoutée de chaque côté du phonème, puis récupérer la partie centrale a posteriori. Les résultats révèlent que les modèles réagissent différemment selon les phones et les locuteurs, avec une variabilité observée à ces niveaux. Le modèle à séquences longues surpasse le modèle à séquences courtes en assurant une corrélation plus robuste avec le débit d’air nasal.

2023

pdf bib abs

Détection de la nasalité du locuteur à partir de réseaux de neurones convolutifs et validation par des données aérodynamiques
Lila Kim | Cedric Gendrot | Amélie Elmerich | Angelique Amelot | Shinji Maeda
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale

Ce travail se positionne dans le domaine de la recherche d’informations sur le locuteur, reconnue comme une des tâches inhérentes au traitement automatique de la parole. A partir d’un nouveau masque pneumotachographe acoustiquement transparent, nous avons enregistré simultanément des données aérodynamiques (débit d’air oral et nasal) et acoustiques pour 6 locuteurs masculins français, impliquant des consonnes et voyelles orales et nasales sur des logatomes. Un CNN entraîné sur d’autres corpus acoustiques en français a été testé sur les données recueillies à partir du masque pour la distinction de nasalité phonémique, avec une classification correcte de 88% en moyenne. Nous avons comparé ces résultats CNN avec les débit d’air nasal et oral captés par le masque afin de quantifier la nasalité présente par locuteur. Les résultats montrent une corrélation significative entre les erreurs produites par le CNN et des distinctions moins nettes de débit d’air du masque entre nasales et orales.

2022

pdf bib abs

PATATRA and PATAFreq: two French databases for the documentation of within-speaker variability in speech
Cécile Fougeron | Nicolas Audibert | Cedric Gendrot | Estelle Chardenon | Louise Wohmann
Proceedings of the Thirteenth Language Resources and Evaluation Conference

Our knowledge on speech is historically built on data comparing different speakers or data averaged across speakers. Consequently, little is known on the variability in the speech of a single individual. Experimental studies have shown that speakers adapt to the linguistic and the speaking contexts, and modify their speech according to their emotional or biological condition, etc. However, it is unclear how much speakers vary from one repetition to the next, and how comparable are recordings that are collected days, months or years apart. In this paper, we introduce two French databases which contain recordings of 9 to 11 speakers recorded over 9 to 18 sessions, allowing comparisons of speech tasks with a different delay between the repetitions: 3 repetitions within the same session, 6 to 10 repetitions on different days during a two months period, 5 to 9 repetitions on different years. Speakers are recorded on a large set of speech tasks including read and spontaneous speech as well as speech-like performance tasks. In this paper, we provide detailed descriptions of the two databases and available annotations. We conclude by an illustration on how these data can inform on within-speaker variability of speech.

2020

pdf bib abs

Caractérisation du locuteur par CNN à l’aide des contours d’intensité et d’intonation : comparaison avec le spectrogramme (CNN speaker characterisation through prosody : spectrogram comparison )
Gabriele Chignoli | Cédric Gendrot | Emmanuel Ferragne
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Dans ce travail nous avons recours aux variations de f0 et d’intensité de 44 locuteurs francophones à partir de séquences de 4 secondes de parole spontanée pour comprendre comment ces paramètres prosodiques peuvent être utilisés pour caractériser des locuteurs. Une classification automatique est effectuée avec un réseau de neurones convolutifs, fournissant comme réponse des scores de probabilité pour chacun des 44 locuteurs modélisés. Une représentation par spectrogrammes a été utilisée comme référence pour le même système de classification. Nous avons pu mettre en avant la pertinence de l’intensité, et lorsque les deux paramètres prosodiques sont combinés pour représenter les locuteurs nous observons un score qui atteint en moyenne 59 % de bonnes classifications.

pdf bib abs

Informations segmentales pour la caractérisation phonétique du locuteur : variabilité inter- et intra-locuteurs (An automatic classification task involving 44 speakers was performed using convolutional neural networks (CNN) on broadband spectrograms extracted from 2-second sequences of a spontaneous speech corpus (NCCFr))
Cedric Gendrot | Emmanuel Ferragne | Thomas Pellegrini
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Nous avons effectué une classification automatique de 44 locuteurs à partir de réseaux de neurones convolutifs (CNN) sur la base de spectrogrammes à bandes larges calculés sur des séquences de 2 secondes extraites d’un corpus de parole spontanée (NCCFr). Après obtention d’un taux de classification moyen de 93,7 %, les différentes classes phonémiques composant chaque séquence ont été masquées afin de tester leur impact sur le modèle. Les résultats montrent que les voyelles orales influent avant toute autre classe sur le taux de classification, suivies ensuite par les occlusives orales. Ces résultats sont expliqués principalement par la représentation temporelle prédominante des voyelles orales. Une variabilité inter-locuteurs se manifeste par l’existence de locuteurs attracteurs qui attirent un grand nombre de faux positifs et qui ne sont pas sensibles au masquage effectué. Nous mettons en avant dans la discussion des réalisations acoustiques qui pourraient expliquer les spécificités de ces locuteurs.

pdf bib abs

Dis-moi comment tu varies ton débit, je te dirai qui tu es (Tell me how you vary your speech flow, I’ll tell you who you are Studying inter-speaker variability makes it possible to identify discriminating or even identifying phonetic characteristics)
Estelle Chardenon | Cécile Fougeron | Nicolas Audibert | Cédric Gendrot
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Si l’étude de la variabilité entre locuteurs permet d’identifier des caractéristiques phonétiques potentiellement discriminantes, voire spécifiques, il est essentiel de comprendre, si et comment, ces caractéristiques varient chez un même locuteur. Ici, nous examinons la variabilité de caractéristiques liées à la gestion temporelle de la parole sur un nombre limité de locuteurs, enregistrés sur plusieurs répétitions dans une même session, et sur 6 à 7 sessions espacées d’une année. Sur cette vingtaine d’enregistrements par locuteur, nous observons comment le débit articulatoire, les modulations de ce débit, et la durée des pauses varient en fonction de la répétition et de la session et en interaction avec le locuteur. Les résultats montrent que c’est dans la variation de gestion temporelle de la parole que les locuteurs se distinguent les uns des autres, en termes de régularité ou non entre enregistrements et au sein d’un même enregistrement.

2012

pdf bib

Une comparaison de la déclinaison de F0 entre le français et l’allemand journalistiques (F0-declination : a comparison between French and German journalistic speech) [in French]
Carolin Schmid | Cédric Gendrot | Martine Adda-Decker
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP

pdf bib

Comparaison de parole journalistique et de parole spontanée : analyses de séquences entre pauses (Comparison of journalistic and spontaneous speech: analysis of sequences between pauses) [in French]
Cedric Gendrot | Martine Adda-decker | Carolin Schmid
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP

pdf bib

La liaison dans la parole spontanée familière : explorations semi-automatiques de grands corpus (French Liaison in casual speech : automatic and manual investigations) [in French]
Martine Adda-Decker | Elisabeth Delais-Roussarie | Cécile Fougeron | Cédric Gendrot | Lori Lamel
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP

2010

This paper presents the rationale, objectives and advances of an on-going project (the DesPho-APaDy project funded by the French National Agency of Research) which aims to provide a systematic and quantified description of French dysarthric speech, over a large population of patients and three dysarthria types (related to the parkinson's disease, the Amyotrophic Lateral Sclerosis disease, and a pure cerebellar alteration). The two French corpora of dysarthric patients, from which the speech data have been selected for analysis purposes, are firstly described. Secondly, this paper discusses and outlines the requirement of a structured and organized computerized platform in order to store, organize and make accessible (for selected and protected usage) dysarthric speech corpora and associated patients clinical information (mostly disseminated in different locations: labs, hospitals, â¦). The design of both a computer database and a multi-field query interface is proposed for the clinical context. Finally, advances of the project related to the selection of the population used for the dysarthria analysis, the preprocessing of the speech files, their orthographic transcription and their automatic alignment are also presented.