Yaru Wu

2024

Création d’un corpus parallèle de styles de parole en mandarin via l’auto-transcription et l’alignement forcé
Jingyi Sun | Yaru Wu | Nicolas Audibert | Martine Adda-Decker
Actes des 35èmes Journées d'Études sur la Parole

La technologie ASR excelle dans la transcription précise des discours lus préparés, mais elle rencontre encore des défis lorsqu’il s’agit de conversations spontanées. Cela est en partie dû au fait que ces dernières relèvent d’un registre de langage informel, avec disfluences et réductions de parole. Afin de mieux comprendre les différences de production en fonction des styles de parole, nous présentons la création d’un corpus de parole conversationnelle, dont des extraits sont ensuite lus par leurs auteurs. Le corpus comprend 36 heures de parole en chinois mandarin avec leur transcription, réparties entre conversations spontanées et lecture. Nous avons utilisé WHISPER pour la transcription automatique de la parole et le Montreal Forced Aligner pour l’alignement forcé, résultant dans un corpus de parole transcrit avec annotations multi-niveaux incluant phonèmes, caractères/syllabes et mots. De telles productions de parole parallèles (en modes spontané et lu) seront particulièrement intéressantes pour l’étude des réductions temporelles.

pdf bib abs

Disfluences en parole continue en français : paramètres prosodiques des répétitions
Ivana Didirková | Yaru Wu | Anne Catherine Simon
Actes des 35èmes Journées d'Études sur la Parole

Cette étude s’intéresse aux caractéristiques acoustiques des répétitions à l’identique à travers différents genres de parole en français. Le corpus d’étude LOCAS-F inclut 42 échantillons de parole représentant 14 activités de parole (ou genres). Ces échantillons sont caractérisés en fonction du degré de préparation, d’interactivité, etc. Le nombre de fois que les éléments sont répétés ne variepas sensiblement en fonction du degré de préparation ou d’interactivité du discours. Du point de vue des durées, les résultats montrent que la durée totale des répétitions augmente avec le degré de préparation du discours. Cela vaut aussi pour la durée des séquences de répétitions avec les insertions. Du point de vue de la fréquence fondamentale, les écarts mélodiques au début d’une séquence de répétition sont plus étendus dans la parole spontanée (non préparée).

pdf bib abs

Réductions temporelles en français parlé : Où peut-on trouver les zones de réduction ?
Yaru Wu | Kim Gerdes | Martine Adda-Decker
Actes des 35èmes Journées d'Études sur la Parole

Cet article examine la réduction dans la parole continue en français, ainsi que les différents facteurs qui contribuent au phénomène, tels que le style de parole, le débit de parole, la catégorie de mots, la position du phone dans le mot et la position du mot dans les groupes syntaxiques. L’étude utilise trois corpus de parole continue en français, couvrant la parole formelle, la parole moins formelle et la parole familière. La méthode utilisée comprend l’alignement forcé et l’étiquetage automatique des zones de réduction. Les résultats suggèrent que la réduction de la parole est présente dans tous les styles de parole, mais moins fréquente dans la parole formelle, et que la réduction est plus susceptible d’être observée dans les énoncés de parole avec un taux de parole élevé. La position médiane des mots ou des groupes syntaxiques tend à favoriser la réduction.

pdf bib abs

Étude de la qualité vocale dans la parole professionnelle des aides-soignants français
Jean-Luc Rouas | Yaru Wu | Takaaki Shochi
Actes des 35èmes Journées d'Études sur la Parole

Cet article présente une méthodologie complète pour étudier les attributs vocaux des aides-soignants travaillant dans des maisons de retraite en France. L’objectif était d’analyser les modèles de parole de 20 aides-soignants dans deux établissements distincts. Les aides-soignants ont été équipés de microphones-casque connectés à des smartphones pour garantir une qualité audio optimale. Les données enregistrées comprenaient la lecture de texte, des entretiens informels et des jeux de rôle professionnels avec des patients fictifs. Le traitement des données a été effectué à l’aide d’un système de reconnaissance automatique de la parole de pointe, permettant de générer des séquences de mots ou de phonèmes avec leurs frontières. L’analyse s’est concentrée sur la détection des variations de la qualité vocale dans divers contextes de parole spontanée. L’objectif final est le développement d’outils de formation automatisés pour les aides-soignants, afin de capturer et reproduire leurs caractéristiques vocales uniques, améliorant ainsi leurs capacités professionnelles.

pdf bib abs

Détection automatique des schwas en français - Application à la détection des troubles du sommeil
Colleen Beaumard | Vincent P. Martin | Yaru Wu | Jean-Luc Rouas | Pierre Philip
Actes des 35èmes Journées d'Études sur la Parole

La Somnolence Diurne Excessive affecte négativement les individus et est un problème de santé publique. L’analyse de la parole pourrait aider les cliniciens à la surveiller. Nous nous sommes concentrés sur la détection du schwa /@/ et avons trouvé un lien entre le nombre d’occurrences annoté manuellement et le niveau de somnolence des patients hypersomnolents d’un sous-ensemble du corpus TILE. Dans un second temps, afin de pouvoir généraliser ces résultats à l’intégralité du corpus, nous avons conçu un système de détection des schwas, robuste à la somnolence. Dans un troisième temps, nous avons étendu notre analyse à deux autres phonèmes supplémentaire /ø/ et /oe/. Nous avons ainsi observé une relation significative entre /ø/ et la combinaison des trois phonèmes et la somnolence subjective à court terme.

pdf bib abs

Perplexing Canon: A study on GPT-based perplexity of canonical and non-canonical literary works
Yaru Wu | Yuri Bizzoni | Pascale Moreira | Kristoffer Nielbo
Proceedings of the 8th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature (LaTeCH-CLfL 2024)

This study extends previous research on literary quality by using information theory-based methods to assess the level of perplexity recorded by three large language models when processing 20th-century English novels deemed to have high literary quality, recognized by experts as canonical, compared to a broader control group. We find that canonical texts appear to elicit a higher perplexity in the models, we explore which textual features might concur to create such an effect. We find that the usage of a more heavily nominal style, together with a more diverse vocabulary, is one of the leading causes of the difference between the two groups. These traits could reflect “strategies” to achieve an informationally dense literary style.

pdf bib abs

La reconnaissance automatique de phonèmes est-elle réellement adaptée pour l’analyse de la parole spontanée ?
Vincent P. Martin | Colleen Beaumard | Charles Brazier | Jean-Luc Rouas | Yaru Wu
Actes des 35èmes Journées d'Études sur la Parole

La transcription phonémique automatique de la parole spontanée trouve des applications variées, notamment dans l’éducation et la surveillance de la santé. Ces transcriptions sont habituellement évaluées soit par la précision de l’identification des phonèmes, soit par leur segmentation temporelle. Jusqu’à présent, aucun système n’a été évalué simultanément sur ces deux tâches. Cet article présente l’évaluation d’un système de transcription phonétique du français spontané (corpus Rhapsodie) basé sur Kaldi. Ce système montre de bons résultats en identification des phonèmes et de leurs catégories, avec des taux d’erreur de 19,2 et 13,4 respectivement. Il est cependant moins performant en segmentation, manquant en moyenne 40 de la durée des phonèmes et 34 des catégories. Les performances s’améliorent avec le niveau de planification de la parole. Ces résultats soulignent le besoin de systèmes de transcription phonétique automatique fiables, nécessaires à des analyses plus approfondies de la parole spontanée.

2022

pdf bib abs

Extracting Linguistic Knowledge from Speech: A Study of Stop Realization in 5 Romance Languages
Yaru Wu | Mathilde Hutin | Ioana Vasilescu | Lori Lamel | Martine Adda-Decker
Proceedings of the Thirteenth Language Resources and Evaluation Conference

This paper builds upon recent work in leveraging the corpora and tools originally used to develop speech technologies for corpus-based linguistic studies. We address the non-canonical realization of consonants in connected speech and we focus on voicing alternation phenomena of stops in 5 standard varieties of Romance languages (French, Italian, Spanish, Portuguese, Romanian). For these languages, both large scale corpora and speech recognition systems were available for the study. We use forced alignment with pronunciation variants and machine learning techniques to examine to what extent such frequent phenomena characterize languages and what are the most triggering factors. The results confirm that voicing alternations occur in all Romance languages. Automatic classification underlines that surrounding contexts and segment duration are recurring contributing factors for modeling voicing alternation. The results of this study also demonstrate the new role that machine learning techniques such as classification algorithms can play in helping to extract linguistic knowledge from speech and to suggest interesting research directions.

pdf bib abs

Using a Knowledge Base to Automatically Annotate Speech Corpora and to Identify Sociolinguistic Variation
Yaru Wu | Fabian Suchanek | Ioana Vasilescu | Lori Lamel | Martine Adda-Decker
Proceedings of the Thirteenth Language Resources and Evaluation Conference

Speech characteristics vary from speaker to speaker. While some variation phenomena are due to the overall communication setting, others are due to diastratic factors such as gender, provenance, age, and social background. The analysis of these factors, although relevant for both linguistic and speech technology communities, is hampered by the need to annotate existing corpora or to recruit, categorise, and record volunteers as a function of targeted profiles. This paper presents a methodology that uses a knowledge base to provide speaker-specific information. This can facilitate the enrichment of existing corpora with new annotations extracted from the knowledge base. The method also helps the large scale analysis by automatically extracting instances of speech variation to correlate with diastratic features. We apply our method to an over 120-hour corpus of broadcast speech in French and investigate variation patterns linked to reduction phenomena and/or specific to connected speech such as disfluencies. We find significant differences in speech rate, the use of filler words, and the rate of non-canonical realisations of frequent segments as a function of different professional categories and age groups.

2020

pdf bib

Alternances de voisement et processus de lénition et de fortition : une étude automatisée de grands corpus en cinq langues romanes [Voicing alternations in relation with lenition and fortition phenomena: an automated study of large corpora in five Romance languages]
Ioana Vasilescu | Yaru Wu | Adèle Jatteau | Martine Adda-Decker | Lori Lamel
Traitement Automatique des Langues, Volume 61, Numéro 1 : Varia [Varia]

pdf bib abs

Réduction temporelle en français spontané : où se cache-t-elle ? Une étude des segments, des mots et séquences de mots fréquemment réduits ()
Yaru Wu | Martine Adda-Decker
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Cette étude vise à proposer une méthode adaptée à l’étude de divers phénomènes de variation dans les grands corpus utilisant l’alignement automatique de la parole. Cette méthode est appliquée pour étudier la réduction temporelle en français spontané. Nous proposons de qualifier la réduction temporelle comme la réalisation de suites de segments courts consécutifs. Environ 14% du corpus est considéré comme réduit. Les résultats de l’alignement montrent que ces zones impliquent le plus souvent plus d’un mot (81%), et que sinon, la position interne du mot est la plus concernée. Parmi les exemples de suites de mots les plus réduits, on trouve des locutions utilisées comme des marqueurs discursifs.

2016

pdf bib abs

Rôle des contextes lexical et post-lexical dans la réalisation du schwa : apports du traitement automatique de grands corpus (Role of lexical and post-lexical contexts in French schwa realisations : benefits of automatic processing of large corpora )
Yaru Wu | Martine Adda-Decker | Cécile Fougeron
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP

Le rôle du contexte est connu dans la réalisation ou non du schwa en français. Deux grands corpus oraux de parole journalistique (ETAPE) et de parole familière (NCCFr), dans lesquels la realisation de schwa est déterminée à partir d’un alignement automatique, ont été utilisés pour examiner la contribution du contexte au sein du mot contenant schwa (lexical) vs. au travers de la frontière avec le mot précédent (post-lexical). Nos résultats montrent l’importance du contexte pré-frontière dans l’explication de la chute du schwa dans la première syllabe d’un mot polysyllabique en parole spontanée. Si le mot précédant se termine par une consonne, nous pouvons faire appel à la loi des trois consonnes et au principe de sonorité pour expliquer des différences de comportement en fonction de la nature des consonnes en contact.

Venues

Fix author

Yaru Wu

2024

2022

2020

2016

Co-authors

Venues