2024
pdf
bib
abs
Exploring Pathological Speech Quality Assessment with ASR-Powered Wav2Vec2 in Data-Scarce Context
Tuan Nguyen
|
Corinne Fredouille
|
Alain Ghio
|
Mathieu Balaguer
|
Virginie Woisard
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
Automatic speech quality assessment has raised more attention as an alternative or support to traditional perceptual clinical evaluation. However, most research so far only gains good results on simple tasks such as binary classification, largely due to data scarcity. To deal with this challenge, current works tend to segment patients’ audio files into many samples to augment the datasets. Nevertheless, this approach has limitations, as it indirectly relates overall audio scores to individual segments. This paper introduces a novel approach where the system learns at the audio level instead of segments despite data scarcity. This paper proposes to use the pre-trained Wav2Vec2 architecture for both SSL, and ASR as feature extractor in speech assessment. Carried out on the HNC dataset, our ASR-driven approach established a new baseline compared with other approaches, obtaining average MSE = 0.73 and MSE = 1.15 for the prediction of intelligibility and severity scores respectively, using only 95 training samples. It shows that the ASR based Wav2Vec2 model brings the best results and may indicate a strong correlation between ASR and speech quality assessment. We also measure its ability on variable segment durations and speech content, exploring factors influencing its decision.
pdf
bib
abs
Interpretable Assessment of Speech Intelligibility Using Deep Learning: A Case Study on Speech Disorders Due to Head and Neck Cancers
Sondes Abderrazek
|
Corinne Fredouille
|
Alain Ghio
|
Muriel Lalain
|
Christine Meunier
|
Mathieu Balaguer
|
Virginie Woisard
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
This paper sheds light on a relatively unexplored area which is deep learning interpretability for speech disorder assessment and characterization. Building upon a state-of-the-art methodology for the explainability and interpretability of hidden representation inside a deep-learning speech model, we provide a deeper understanding and interpretation of the final intelligibility assessment of patients experiencing speech disorders due to Head and Neck Cancers (HNC). Promising results have been obtained regarding the prediction of speech intelligibility and severity of HNC patients while giving relevant interpretations of the final assessment both at the phonemes and phonetic feature levels. The potential of this approach becomes evident as clinicians can acquire more valuable insights for speech therapy. Indeed, this can help identify the specific linguistic units that affect intelligibility from an acoustic point of view and enable the development of tailored rehabilitation protocols to improve the patient’s ability to communicate effectively, and thus, the patient’s quality of life.
pdf
bib
abs
Pertinence des pseudo-mots dans l’évaluation de l’intelligibilité : Effet du nombre ou du caractère non lexical ?
Marie Rebourg
|
Muriel Lalain
|
Alain Ghio
|
Corinne Fredouille
|
Nicolas Fakhry
|
Virginie Woisard
Actes des 35èmes Journées d'Études sur la Parole
La perte d’intelligibilité constitue une plainte récurrente des patients traités pour un cancer de la cavité buccale ou de l’oropharynx. La notion d’intelligibilité par son aspect multifactorielle est complexe à définir, mais aussi, par extension, à évaluer avec précision. Les différents matériaux utilisés dans ces évaluations sont connus pour montrer des effets d’apprentissages imputables aux listes d’items courtes et fermées, présentes dans les batteries de tests classiques. Dans cette étude, nous évaluons l’effet d’apprentissage du matériel linguistique en comparant l’évolution des scores d’intelligibilité calculés à partir de la transcription de mots et de pseudo-mots, présentés en proportion équivalente, soit la répétition de 50 mots vs de 52 pseudo-mots. Nos résultats montrent un effet d’apprentissage des pseudo-mots lorsqu’ils sont répétés, dans les mêmes proportions que celui observé sur les mots. Ainsi, c’est la quantité de pseudo-mots qui permet de neutraliser l’effet d’apprentissage du matériel linguistique dans une évaluation de l’intelligibilité.
pdf
bib
abs
Apprentissage profond pour l’analyse de la parole pathologique : étude comparative entre modèles CNN et à base de transformers
Malo Maisonneuve
|
Corinne Fredouille
|
Muriel Lalain
|
Alain Ghio
|
Virginie Woisard
Actes des 35èmes Journées d'Études sur la Parole
Les cancers des voies aérodigestives supérieures (VADS) ont un impact significatif sur la capacité des patients à s’exprimer, ce qui affecte leur qualité de vie. Les évaluations actuelles de la parole pathologique sont subjectives, justifiant le besoin de méthodes automatiques et objectives. Un modèle auto-supervisé basé sur Wav2Vec2 est proposé pour la classification de phonèmes chez les patients atteints de cancer des VADS, visant une amélioration des taux de bonne classification et une meilleure discrimination des caractéristiques phonétiques. Les impacts des paramètres d’affinage, des données de pré-entraînement, de la taille du modèle et des données d’affinage sont explorés. Nos résultats montrent que l’architecture Wav2Vec2 surpasse une approche basée sur un CNN, et montre une corrélation significative avec les mesures perceptives. Ce travail ouvre la voie à une meilleure compréhension de la parole pathologique, via une représentation auto-apprise de la parole, très pertinente pour des approches d’interprétation à destination des cliniciens.
pdf
bib
abs
Evaluation de la dysarthrie parkinsonienne en lecture par la mesure de la déviation phonologique perçue : effets de la sévérité et du traitement dopaminergique
Alain Ghio
|
Muriel Lalain
|
Cindy Defais
|
Alexia Brevet
|
Manon Jayr
|
Danielle Duez
|
Marie Rebourg
|
Corinne Fredouille
|
Virginie Woisard
|
François Viallet
Actes des 35èmes Journées d'Études sur la Parole
La perte d’intelligibilité chez des patients atteints de troubles de la production de la parole est un élément important du bilan orthophonique. Nous proposons un test fondé sur des séquences délexicalisées de type Voyelle-Consonne-Voyelle ainsi que sur des voyelles isolées extraites automatiquement d’un corpus de lecture. 12 locuteurs contrôles et 30 patients atteints de la maladie de Parkinson ont participé à l’expérience. Pour chaque locuteur, nous avons extrait automatiquement 50 séquences VCV et 50 voyelles isolées qui ont été soumises à l’identification par des auditeurs. La mesure de l’intelligibilité est fondée sur le comptage du nombre de traits phonémiques mal perçus par les auditeurs (Perceived Phonological Deviation = PPD). Nos résultats montrent une différence significative entre le groupe contrôle et les patients. Nous n’observons aucun effet lié au traitement dopaminergique. En revanche, nous observons une augmentation du PPD en fonction de la sévérité de la dysarthrie évaluée cliniquement par le neurologue.
2020
pdf
bib
abs
PTSVOX : une base de données pour la comparaison de voix dans le cadre judiciaire (PTSVOX : a Speech Database for Forensic Voice Comparison )
Anaïs Chanclu
|
Laurianne Georgeton
|
Corinne Fredouille
|
Jean-Francois Bonastre
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole
Cet article présente la base de données PTSVOX, créée par le Service Central de la Police Technique et Scientifique (SCPTS) spécifiquement pour la comparaison de voix dans le cadre judiciaire. PTSVOX contient 369 locuteurs et locutrices qui ont été enregistrés au microphone et au téléphone. PTSVOX a été conçue pour mesurer l’influence de différents facteurs de variabilité fréquemment rencontrés dans les cas pratiques en identification judiciaire, comme le type de parole, le temps écoulé et le matériel d’enregistrement. Pour cela, 24 des locuteurs de PTSVOX (12 hommes et 12 femmes) ont été enregistrés une fois par mois pendant 3 mois, en parole spontanée et en parole lue. Dans cet article, nous présentons dans un premier temps la base PTSVOX, puis nous décrivons des protocoles standards ainsi que les systèmes de référence associés à PTSVOX, avec une évaluation de leur performance.
pdf
bib
abs
Evaluation de l’intelligibilité de patients avec traitement du cancer des cavités orales et pharyngales (Intelligibility Assessment of patients in the Context of Head and Neck Cancers)
Alain Ghio
|
Muriel Lalain
|
Marie Rebourg
|
Corinne Fredouille
|
Virginie Woisard
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole
La perte d’intelligibilité représente une plainte importante des patients atteints de troubles de la parole. Plusieurs batteries de test d’intelligibilité existent mais leurs limitations résident dans la capacité des auditeurs à restaurer les séquences distordues. Nous proposons un nouveau test fondé sur l’utilisation de pseudo-mots en grande quantité afin de complètement neutraliser les effets perceptifs indésirables. Nous avons appliqué ce test à une population de 39 sujets sains et 78 patients post traitement de cancers de la cavité buccale et de l’oropharynx. Chaque locuteur a produit 52 pseudo-mots tirés aléatoirement. 40 auditeurs ont retranscrit ces productions. Les transcriptions orthographiques ont été phonétisées et comparées aux formes phonétiques attendues. Un algorithme fournit un score de déviation phonologique perçue (PPD) fondée sur le nombre de traits différents entre la forme attendue et celle transcrite. Les résultats montrent qu’il existe un seuil PPD de 0.6 traits/phonème au-dessus duquel, la parole produite est dysfonctionnelle. De plus, le score de PPD est bien corrélé au jugement subjectif de la sévérité obtenue auprès d’experts. Ce test semble donc efficace pour mesurer la performance articulatoire des locuteurs.
pdf
bib
abs
Évaluer l’intelligibilité, mots ou pseudo-mots ? Comparaison entre deux groupes d’auditeurs (Assess intelligibility, words or pseudo-words? Comparison between two groups of listeners)
Marie Rebourg
|
Muriel Lalain
|
Alain Ghio
|
Corinne Fredouille
|
Nicolas Fakhry
|
Virginie Woisard
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole
La perte d’intelligibilité représente une plainte importante des patients traités pour un cancer de la cavité buccale ou de l’oropharynx. L’évaluation de l’intelligibilité est essentielle dans le parcours de soin, mais les tests existants ne sont pas satisfaisants. Basés sur la perception de listes de mots par des auditeurs entraînés à restaurer des séquences sonores dégradées, ils conduisent souvent à une sousévaluation des déficits. Nous avons proposé une nouvelle tâche d’évaluation de l’intelligibilité, la tâche de décodage acoustico phonétique (DAP), basée sur l’utilisation de pseudo-mots (Astésano et al., 2018; Ghio et al., 2018; Ghio et al., soumis, Lalain et al., sous presse). Dans cette étude, nous évaluons la capacité de la tâche DAP à neutraliser les effets de restauration lexicale et d’expertise auditive clinique. Les résultats montrent que contrairement à une évaluation de l’intelligibilité basée sur des mots, une évaluation basée sur des pseudo-mots permet d’obtenir des scores de Déviation Phonologique Perçue (DPP) stables au cours du temps quel que soit le degré d’expertise des auditeurs, naïfs ou cliniciens.
pdf
bib
Traitement Automatique des Langues, Volume 61, Numéro 2 : TAL et Santé [NLP and Health]
Aurélie Névéol
|
Berry de Bruijn
|
Corinne Fredouille
Traitement Automatique des Langues, Volume 61, Numéro 2 : TAL et Santé [NLP and Health]
pdf
bib
TAL et Santé [NLP and Health]
Aurélie Névéol
|
Berry de Bruijn
|
Corinne Fredouille
Traitement Automatique des Langues, Volume 61, Numéro 2 : TAL et Santé [NLP and Health]
pdf
bib
abs
How to Compare Automatically Two Phonological Strings: Application to Intelligibility Measurement in the Case of Atypical Speech
Alain Ghio
|
Muriel Lalain
|
Laurence Giusti
|
Corinne Fredouille
|
Virginie Woisard
Proceedings of the Twelfth Language Resources and Evaluation Conference
Atypical speech productions, regardless of their origins (accents, learning, pathology), need to be assessed with regard to “typical” or “expected” productions. Evaluation is necessarily based on comparisons between linguistic forms produced and linguistic forms expected. In the field of speech disorders, the intelligibility of a patient is evaluated in order to measure the functional impact of his/her pathology on his/her oral communication. The usual method is to transcribe orthographic linguistic forms perceived and to assign a global and imprecise rating based on their correctness or incorrect. To obtain a more precise evaluation of the production deviations, we propose a measurement method based on phonological transcriptions. An algorithm computes automatically and finely the distances between the phonological forms produced and expected from cost matrices based on the differences of features between phonemes. A first test of this method among a large population of healthy speakers and patients treated for cancer of the oral and pharyngeal cavities has proved its validity.
pdf
bib
abs
Have a Cake and Eat it Too: Assessing Discriminating Performance of an Intelligibility Index Obtained from a Reduced Sample Size
Anna Marczyk
|
Alain Ghio
|
Muriel Lalain
|
Marie Rebourg
|
Corinne Fredouille
|
Virginie Woisard
Proceedings of the Twelfth Language Resources and Evaluation Conference
This paper investigates random vs. phonetically motivated reduction of linguistic material used in an intelligibility task in speech disordered populations and the subsequent impact on the discrimination classifier quantified by the area under the receiver operating characteristics curve (AUC of ROC). The comparison of obtained accuracy indexes shows that when the sample size is reduced based on a phonetic criterium—here, related to phonotactic complexity—, the classifier has a higher ranking ability than when the linguistic material is arbitrarily reduced. Crucially, downsizing the linguistic sample to about 30% of the original dataset does not diminish the discriminatory performance of the classifier. This result is of significant interest to both clinicians and patients as it validates a tool that is both reliable and efficient.
2018
pdf
bib
Dysarthric speech evaluation: automatic and perceptual approaches
Imed Laaridh
|
Christine Meunier
|
Corinne Fredouille
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)
pdf
bib
Carcinologic Speech Severity Index Project: A Database of Speech Disorder Productions to Assess Quality of Life Related to Speech After Cancer
Corine Astésano
|
Mathieu Balaguer
|
Jérôme Farinas
|
Corinne Fredouille
|
Pascal Gaillard
|
Alain Ghio
|
Imed Laaridh
|
Muriel Lalain
|
Benoît Lepage
|
Julie Mauclair
|
Olivier Nocaudie
|
Julien Pinquier
|
Oriol Pont
|
Gilles Pouchoulin
|
Michèle Puech
|
Danièle Robert
|
Etienne Sicard
|
Virginie Woisard
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)
2016
pdf
bib
abs
Automatic Anomaly Detection for Dysarthria across Two Speech Styles: Read vs Spontaneous Speech
Imed Laaridh
|
Corinne Fredouille
|
Christine Meunier
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)
Perceptive evaluation of speech disorders is still the standard method in clinical practice for the diagnosing and the following of the condition progression of patients. Such methods include different tasks such as read speech, spontaneous speech, isolated words, sustained vowels, etc. In this context, automatic speech processing tools have proven pertinence in speech quality evaluation and assistive technology-based applications. Though, a very few studies have investigated the use of automatic tools on spontaneous speech. This paper investigates the behavior of an automatic phone-based anomaly detection system when applied on read and spontaneous French dysarthric speech. The behavior of the automatic tool reveals interesting inter-pathology differences across speech styles.
pdf
bib
abs
The TYPALOC Corpus: A Collection of Various Dysarthric Speech Recordings in Read and Spontaneous Styles
Christine Meunier
|
Cecile Fougeron
|
Corinne Fredouille
|
Brigitte Bigi
|
Lise Crevier-Buchman
|
Elisabeth Delais-Roussarie
|
Laurianne Georgeton
|
Alain Ghio
|
Imed Laaridh
|
Thierry Legou
|
Claire Pillot-Loiseau
|
Gilles Pouchoulin
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)
This paper presents the TYPALOC corpus of French Dysarthric and Healthy speech and the rationale underlying its constitution. The objective is to compare phonetic variation in the speech of dysarthric vs. healthy speakers in different speech conditions (read and unprepared speech). More precisely, we aim to compare the extent, types and location of phonetic variation within these different populations and speech conditions. The TYPALOC corpus is constituted of a selection of 28 dysarthric patients (three different pathologies) and of 12 healthy control speakers recorded while reading the same text and in a more natural continuous speech condition. Each audio signal has been segmented into Inter-Pausal Units. Then, the corpus has been manually transcribed and automatically aligned. The alignment has been corrected by an expert phonetician. Moreover, the corpus benefits from an automatic syllabification and an Automatic Detection of Acoustic Phone-Based Anomalies. Finally, in order to interpret phonetic variations due to pathologies, a perceptual evaluation of each patient has been conducted. Quantitative data are provided at the end of the paper.
pdf
bib
abs
Détection automatique d’anomalies sur deux styles de parole dysarthrique: parole lue vs spontanée (Automatic anomaly detection for dysarthria across two speech styles : read vs spontaneous speech)
Imed Laaridh
|
Corinne Fredouille
|
Meunier Christine
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
L’évaluation perceptive de la parole pathologique reste le standard dans la pratique clinique pour le diagnostic et le suivi des patients. De telles méthodes incluent plusieurs tâches telles que la lecture, la parole spontanée, le chant, les mots isolés, la voyelle tenue, etc. Dans ce contexte, les outils de traitement automatique de la parole ont montré leur pertinence dans l’évaluation de la qualité de parole ainsi que dans le cadre de la communication améliorée et alternative (CAA) pour les patients atteints de troubles de parole. Cependant, peu de travaux ont étudié l’utilisation de ces outils sur la parole spontanée. Ce papier examine le comportement d’un système de détection automatique d’anomalies au niveau phonème face à la parole dysarthrique lue et spontanée. Le comportement du système révèle une variabilité inter-pathologique à travers les styles de parole.
2012
pdf
bib
Détection automatique de zones de déviance dans la parole dysarthrique : étude des bandes de fréquences (Abnormal Zone Detection in Dysarthric Speech Utterances according to Frequency Bands) [in French]
Corinne Fredouille
|
Gilles Pouchoulin
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP
pdf
bib
Percol0 - un système multimodal de détection de personnes dans des documents vidéo (Percol0 - A multimodal person detection system in video documents) [in French]
Frederic Bechet
|
Remi Auguste
|
Stephane Ayache
|
Delphine Charlet
|
Geraldine Damnati
|
Benoit Favre
|
Corinne Fredouille
|
Christophe Levy
|
Georges Linares
|
Jean Martinet
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP
2010
pdf
bib
abs
The DesPho-APaDy Project: Developing an Acoustic-phonetic Characterization of Dysarthric Speech in French
Cécile Fougeron
|
Lise Crevier-Buchman
|
Corinne Fredouille
|
Alain Ghio
|
Christine Meunier
|
Claude Chevrie-Muller
|
Jean-Francois Bonastre
|
Antonia Colazo Simon
|
Céline Delooze
|
Danielle Duez
|
Cédric Gendrot
|
Thierry Legou
|
Nathalie Levèque
|
Claire Pillot-Loiseau
|
Serge Pinto
|
Gilles Pouchoulin
|
Danièle Robert
|
Jacqueline Vaissiere
|
François Viallet
|
Coralie Vincent
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
This paper presents the rationale, objectives and advances of an on-going project (the DesPho-APaDy project funded by the French National Agency of Research) which aims to provide a systematic and quantified description of French dysarthric speech, over a large population of patients and three dysarthria types (related to the parkinson's disease, the Amyotrophic Lateral Sclerosis disease, and a pure cerebellar alteration). The two French corpora of dysarthric patients, from which the speech data have been selected for analysis purposes, are firstly described. Secondly, this paper discusses and outlines the requirement of a structured and organized computerized platform in order to store, organize and make accessible (for selected and protected usage) dysarthric speech corpora and associated patients clinical information (mostly disseminated in different locations: labs, hospitals, â¦). The design of both a computer database and a multi-field query interface is proposed for the clinical context. Finally, advances of the project related to the selection of the population used for the dysarthria analysis, the preprocessing of the speech files, their orthographic transcription and their automatic alignment are also presented.