Nicolas Audibert

2024

pdf bib abs
Caractérisation acoustique des réalisations approximantes du /v/ intervocalique en français spontané
Suyuan Dong | Nicolas Audibert
Actes des 35èmes Journées d'Études sur la Parole

Les fricatives /v/ ont tendance à se réaliser comme une variante affaiblie en français spontané. Nous nous sommes appuyés sur les données du corpus NCCFr et avons évalué 5504 occurrences de /v/ intervocalique produites par 10 hommes et 10 femmes, à partir de l’inspection des spectrogrammes. Un ensemble de mesures acoustiques dynamiques ont été relevées sur chaque exemplaire, et comparées entre les deux types de réalisation (fricatives voisées et approximantes) par des modèles GAM pour prendre en compte leur évolution temporelle. Les résultats montrent une prépondérance des réalisations approximantes, également observables en positions accentuées, et indiquent que ces deux types de réalisation divergent tant au niveau temporel que spectral, particulièrement dans les hautes fréquences. La manifestation de cet affaiblissement varie également en fonction des locuteurs. Ces observations permettent de suggérer que le /v/ intervocalique serait sujet à un processus d’affaiblissement en cours, au-delà d’une simple réduction segmentale.

pdf bib abs
Création d’un corpus parallèle de styles de parole en mandarin via l’auto-transcription et l’alignement forcé
Jingyi Sun | Yaru Wu | Nicolas Audibert | Martine Adda-Decker
Actes des 35èmes Journées d'Études sur la Parole

La technologie ASR excelle dans la transcription précise des discours lus préparés, mais elle rencontre encore des défis lorsqu’il s’agit de conversations spontanées. Cela est en partie dû au fait que ces dernières relèvent d’un registre de langage informel, avec disfluences et réductions de parole. Afin de mieux comprendre les différences de production en fonction des styles de parole, nous présentons la création d’un corpus de parole conversationnelle, dont des extraits sont ensuite lus par leurs auteurs. Le corpus comprend 36 heures de parole en chinois mandarin avec leur transcription, réparties entre conversations spontanées et lecture. Nous avons utilisé WHISPER pour la transcription automatique de la parole et le Montreal Forced Aligner pour l’alignement forcé, résultant dans un corpus de parole transcrit avec annotations multi-niveaux incluant phonèmes, caractères/syllabes et mots. De telles productions de parole parallèles (en modes spontané et lu) seront particulièrement intéressantes pour l’étude des réductions temporelles.

pdf bib abs
Effet du vieillissement sur l’anticipation d’arrondissement intra-syllabique en français
Louise Wohmann-Bruzzo | Cecile Fougeron | Nicolas Audibert
Actes des 35èmes Journées d'Études sur la Parole

Cette étude examine l’évolution de l’anticipation d’arrondissement intra-syllabique en fonction de l’âge, en se basant sur les travaux précédents de D’Alessandro et Fougeron (2021), qui montre une diminution de la coarticulation inter-syllabique chez les personnes âgées. Nous avons analysé acoustiquement les syllabes /sy/ et /si/ de 40 locuteurs français répartis en deux groupes : 20 jeunes adultes (23-34 ans) et 20 personnes âgées (72-86 ans). Nos résultats montrent une diminution significative de l’anticipation d’arrondissement chez les âgés, indépendante d’une diminution de débit articulatoire. Moins de coarticulation au sein d’une même syllabe ne peut pas s’expliquer par un encodage syllabe par syllabe, comme pouvait l’être la diminution de coarticulation entre syllabe. Nous avançons donc que cette diminution globale de la co-articulation reflète un changement de paramétrisation de la parole chez les personnes âgées limitant le chevauchement entre gestes articulatoires et garantissant l’atteinte des cibles articulatoires successives.

pdf bib abs
Enseignement de l’intonation du français par une synthèse vocale contrôlée par le geste : étude de faisabilité
Xiao Xiao | Corinne Bonnet | Haohan Zhang | Nicolas Audibert | Barbara Kühnert | Claire Pillot-Loiseau
Actes des 35èmes Journées d'Études sur la Parole

Peut-on enseigner l’intonation française en classe avec une synthèse vocale contrôlée gestuellement sur une tablette ? La fréquence fondamentale et la durée de quatre phrases déclaratives, quatre questions polaires, quatre énoncés exprimant l’incrédulité (1 à 4 syllabes) de deux apprenantes ukrainiennes débutantes en français ont été comparées avant et après quatre entraînements hebdomadaires. Les apprenantes devaient écouter un enregistrement de référence, puis visualiser le modèle sur la tablette, tracer l’intonation manuellement, écouter le résultat synthétisé, et tracer et écouter leur tracé sans guide. Elles produisaient initialement des phrases déclaratives avec une intonation ascendante, et ont différencié les déclarations et les questions polaires après l’entraînement. L’expression de l’incrédulité s’est améliorée pour l’une. L’autre a montré quelques difficultés à maîtriser cette technologie. Cette première étude de cas utilisant la synthèse vocale contrôlée gestuellement est une approche prometteuse permettant plus de pratique de l’intonation en classe.

pdf bib abs
Frontières entre la perception de la voix normophonique et pathologique chez des auditeurs naïfs
Amelia Pettirossi | Nicolas Audibert | Lise Crevier-Buchman
Actes des 35èmes Journées d'Études sur la Parole

Nous étudions l’hétéroévaluation de la qualité de voix chez une population de femmes francophones comprenant des professionnelles de la voix et des patientes recrutées lors d’une consultation de phoniatrie. Des extraits de parole ont été évalués par un expert à l’aide du GRBAS et par deux groupes de 30 et 40 auditeurs naïfs avec des protocoles perceptifs destinés à évaluer la qualité de voix globale. Ces évaluations ont été mises en correspondance afin d’observer de potentielles corrélations entre la perception de la pathologie vocale chez les auditeurs naïfs et les paramètres du GRBAS expert. Les voix perçues comme plus pathologiques par les auditeurs naïfs sont bien associées à un grade global plus élevé, avec une influence prépondérante de la sévérité du serrage vocal. Les indices de raucité et de souffle sont moins liés à la perception par les naïfs des voix comme pathologiques.

pdf bib abs
iHist et iScatter, outils en ligne d’exploration interactive de données : application aux valeurs aberrantes de f0 et de formants
Nicolas Audibert
Actes des 35èmes Journées d'Études sur la Parole

Les mesures aberrantes d’un point de vue statistique (outliers) doivent être traitées avec précaution, ce qui peut être compliqué en pratique lorsque la quantité de données devient importante. Afin de faciliter l’inspection des valeurs situées à la marge des distributions, nous proposons deux outils développés avec R/Shiny, disponibles sous forme d’applications en ligne utilisables par des non-spécialistes et distribués gratuitement sous licence GPL. Ces applications permettent de paramétrer la visualisation et d’explorer de façon interactive des distributions via des histogrammes, et les relations entre variables quantitatives via des nuages de points. Deux cas d’utilisation appliqués à des données de parole sont présentés pour illustrer les principales fonctionnalités de ces outils, à partir de mesures acoustiques extraites par Praat : l’ajustement des valeurs limites pour la détection automatique de la fréquence fondamentale, et l’identification de valeurs erronées de formants.

2022

pdf bib abs
PATATRA and PATAFreq: two French databases for the documentation of within-speaker variability in speech
Cécile Fougeron | Nicolas Audibert | Cedric Gendrot | Estelle Chardenon | Louise Wohmann
Proceedings of the Thirteenth Language Resources and Evaluation Conference

Our knowledge on speech is historically built on data comparing different speakers or data averaged across speakers. Consequently, little is known on the variability in the speech of a single individual. Experimental studies have shown that speakers adapt to the linguistic and the speaking contexts, and modify their speech according to their emotional or biological condition, etc. However, it is unclear how much speakers vary from one repetition to the next, and how comparable are recordings that are collected days, months or years apart. In this paper, we introduce two French databases which contain recordings of 9 to 11 speakers recorded over 9 to 18 sessions, allowing comparisons of speech tasks with a different delay between the repetitions: 3 repetitions within the same session, 6 to 10 repetitions on different days during a two months period, 5 to 9 repetitions on different years. Speakers are recorded on a large set of speech tasks including read and spontaneous speech as well as speech-like performance tasks. In this paper, we provide detailed descriptions of the two databases and available annotations. We conclude by an illustration on how these data can inform on within-speaker variability of speech.

2020

pdf bib abs
Dis-moi comment tu varies ton débit, je te dirai qui tu es (Tell me how you vary your speech flow, I’ll tell you who you are Studying inter-speaker variability makes it possible to identify discriminating or even identifying phonetic characteristics)
Estelle Chardenon | Cécile Fougeron | Nicolas Audibert | Cédric Gendrot
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Si l’étude de la variabilité entre locuteurs permet d’identifier des caractéristiques phonétiques potentiellement discriminantes, voire spécifiques, il est essentiel de comprendre, si et comment, ces caractéristiques varient chez un même locuteur. Ici, nous examinons la variabilité de caractéristiques liées à la gestion temporelle de la parole sur un nombre limité de locuteurs, enregistrés sur plusieurs répétitions dans une même session, et sur 6 à 7 sessions espacées d’une année. Sur cette vingtaine d’enregistrements par locuteur, nous observons comment le débit articulatoire, les modulations de ce débit, et la durée des pauses varient en fonction de la répétition et de la session et en interaction avec le locuteur. Les résultats montrent que c’est dans la variation de gestion temporelle de la parole que les locuteurs se distinguent les uns des autres, en termes de régularité ou non entre enregistrements et au sein d’un même enregistrement.

pdf bib abs
Corrélats acoustiques et perceptifs de la personnalité perçue à travers la voix dans une population de dysphoniques légères (Acoustical and perceptual correlates of perceived personality through voice in minor dysphonia)
Amelia Pettirossi | Nicolas Audibert | Lise Crevier-Buchman
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Nous étudions les corrélats acoustiques et perceptifs de la personnalité à travers la voix dans une population de dysphoniques légères (G1 à G2) et de locutrices témoins (G0). 40 auditeurs naïfs ont évalué les voix de 61 femmes. Des échelles sémantiques différentielles ont été utilisées pour la cotation de la sévérité du trouble vocal et des traits de personnalité. Les 5 échelles sont : Joyeuse/Triste, Sympathique/Désagréable, Dynamique/Molle, Confiante/Hésitante, Aucun trouble vocal/Trouble vocal sévère. Le jugement de la pathologie vocale par les naïfs est principalement lié à l’évaluation experte du grade de dysphonie faite à partir du GRBAS. Des traits de personnalité plus négatifs sont attribués aux locutrices perçues comme plus dysphoniques. Certains facteurs acoustiques (f0, débit syllabique, HNR et ZCR) semblent influencer les auditeurs : les voix plus aigües, plus rauques et avec un débit rapide sont associées à un jugement plus positif.

pdf bib abs
Effets du sexe et de la langue parlée sur la production de la parole chez les locuteurs coréens et français (Effects of sex and language spoken on speech production among Korean and French speakers)
Dayeon Yoon | Nicolas Audibert | Cécile Fougeron
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Cette étude a pour but d’examiner l’effet du sexe et de la langue sur la production de la parole lue des locuteurs coréens et français. Dix paramètres acoustiques sont utilisés pour caractériser trois grandes dimensions : la voix (moyenne et écart-type de la F0, pente de LTAS et CPPs) ; les résonances du conduit vocal (F1 et F2 de /a/ et /i/) ; la gestion temporelle (débit de parole et articulatoire). Comme attendu, on observe une interaction entre sexe et langue sur la plupart des paramètres acoustiques supposés différencier les voix de femmes de celles d’hommes. Seuls le F1 de /i/ et la gestion temporelle ne montrent pas d’interaction entre sexe et langue. Ces résultats suggèrent que la différenciation de la voix entre sexes dépend de la langue parlée.

pdf bib abs
Towards Interactive Annotation for Hesitation in Conversational Speech
Jane Wottawa | Marie Tahon | Apolline Marin | Nicolas Audibert
Proceedings of the Twelfth Language Resources and Evaluation Conference

Manual annotation of speech corpora is expensive in both human resources and time. Furthermore, recognizing affects in spontaneous, non acted speech presents a challenge for humans and machines. The aim of the present study is to automatize the labeling of hesitant speech as a marker of expressed uncertainty. That is why, the NCCFr-corpus was manually annotated for ‘degree of hesitation’ on a continuous scale between -3 and 3 and the affective dimensions ‘activation, valence and control’. In total, 5834 chunks of the NCCFr-corpus were manually annotated. Acoustic analyses were carried out based on these annotations. Furthermore, regression models were trained in order to allow automatic prediction of hesitation for speech chunks that do not have a manual annotation. Preliminary results show that the number of filled pauses as well as vowel duration increase with the degree of hesitation, and that automatic prediction of the hesitation degree reaches encouraging RMSE results of 1.6.

2016

pdf bib abs
Que nous apprennent les gros corpus sur l’harmonie vocalique en français ? (What can we learn from big speech corpora about French vowel harmony?)
Giuseppina Turco | Cécile Fougeron | Nicolas Audibert
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP

Afin de mieux identifier le poids relatif des différents facteurs décrits dans la littérature comme influençant le phénomène d’harmonie vocalique (HV) en français, 33k mots extraits de deux corpus de parole continue et présentant un contexte d’HV possible V1C(C)V2 (V1∈e,ɛ,o,ɔ) sont analysés. Le degré d’HV est mesuré en termes d’abaissement du F1 de V1 induit par la présence d’une V2 /+haut/ (fermée ou mi-fermée) par rapport à une V2 /-haut/ (ouverte ou mi-ouverte). Les résultats montrent une HV plus importante pour les voyelles moyennes postérieures que pour les antérieures, et plus faible lorsque l’orthographe favorise une prononciation mi-fermée de V1. Comme attendu, l’HV est plus forte quand V1 est séparé de V2 par une consonne labiale vs. linguale ou par un cluster consonantique sous-jacent vs. un cluster résultant de la chute d’un schwa. En revanche, le style de parole (conversationnelle vs. journalistique) a un effet plus nuancé que celui attendu.

2012

pdf bib
Distorsions de l’espace vocalique : quelles mesures? Application à la dysarthrie (Distortions of vocalic space: which measurements? An application to dysarthria.) [in French]
Nicolas Audibert | Cécile Fougeron
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP

pdf bib
Les ajustements laryngaux en français (Laryngeal adjustments in French) [in French]
Rachid Ridouane | Nicolas Audibert | Van Minh Nguyen
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP

pdf bib
Variations de la configuration labiale des voyelles /i, y, a/: effets de la position prosodique et du locuteur (Variations of labial configuration of vowels /i, y, a/: effect of prosodic positionand speaker) [in French]
Laurianne Georgeton | Nicolas Audibert
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP

2008

pdf bib abs
Multimodal Spontaneous Expressive Speech Corpus for Hungarian
Márk Fék | Nicolas Audibert | János Szabó | Albert Rilliard | Géza Németh | Véronique Aubergé
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

A Hungarian multimodal spontaneous expressive speech corpus was recorded following the methodology of a similar French corpus. The method relied on a Wizard of Oz scenario-based induction of varying affective states. The subjects were interacting with a supposedly voice-recognition driven computer application using simple command words. Audio and video signals were captured for the 7 recorded subjects. After the experiment, the subjects watched the video recording of their session and labelled the recorded corpus themselves, freely describing the evolution of their affective states. The obtained labels were later classified into one of the following broad emotional categories: satisfaction, dislike, stress, or other. A listening test was performed by 25 naïve listeners in order to validate the category labels originating from the self-labelling. For 52 of the 149 stimuli, listeners judgements of the emotional content were in agreement with the labels. The result of the listening test was compared with an earlier test validating a part of the French corpus. While the French test had a higher success ratio, validating the labels of 79 tested stimuli, out of the 193, the stimuli validated by the two tests can form the basis of cross linguistic comparison experiments.

2004

pdf bib
E-Wiz: a Trapper Protocol for Hunting the Expressive Speech Corpora in Lab
Véronique Aubergé | Nicolas Audibert | Albert Rilliard
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)

pdf bib
Evaluating an Authentic Audio-Visual Expressive Speech Corpus
Albert Rilliard | Véronique Aubergé | Nicolas Audibert
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)

Co-authors

Venues

jeptalnrecital13
lrec5

Fix author