Julie Mauclair


2024

Dans le contexte des troubles de la parole, l’une des tâches du thérapeute est de définir l’intelligibilité de la parole du patient. Les systèmes automatiques peuvent aider dans cette tâche, mais dans la plupart des cas, ils sont entraînés dans des environnements spécifiques et contrôlés, avec des conditions propres qui ne reflètent pas un environnement médical. Dans cet article, nous développons un système automatique qui prédit l’intelligibilité de la parole à partir de données provennant de patients ayant un cancer de la tête et du cou obtenues dans des conditions cliniques. Ce système repose sur des représentations de locuteurs entraînées selon une méthodologie multi-tâches pour prédire simultanément l’intelligibilité de la parole et la sévérité des troubles de la parole. Il atteint une corrélation allant jusqu’à 0,891 pour une tâche de lecture. De plus, il affiche des résultats prometteurs sur de la parole spontanée, qui est une tâche plus écologique mais sous-étudiée et pourtant essentielle pour un déploiement direct d’un système automatique dans un environnement hospitalier.

2020

Dans cette étude, nous explorons la prédiction a priori de la qualité de la transcription automatique de la parole dans le cas de la parole réverbérée enregistrée avec un seul microphone. Cette prédiction est faite avant le décodage pour informer les utilisateurs de la qualité de la transcription attendue. Dans cette étude, nous nous concentrons uniquement sur les pertes de performance liées à la réverbération. Une nouvelle mesure de réverbération appelée « Excitation Behavior » est introduite. Cette mesure exploite le résidus de la prédiction linéaire sur les fenêtres voisées du signal de parole. L’expérience a été menée sur le corpus Wall Street Journal, réverbéré par des réponses impulsionnelles provenant du REVERB Challenge. Par rapport aux autres mesures de réverbération testées, notre mesure obtient une amélioration relative de 20% de la prédiction du taux d’erreur (aussi bien au niveau des phonèmes que des mots).
La Reconnaissance Automatique de la Parole (RAP) est moins performante lorsque le signal de parole est de mauvaise qualité. Dans cette étude, nous analysons les erreurs commises par les systèmes de RAP lorsque la parole transcrite est réverbérée afin de mieux comprendre les raisons de ces erreurs. Notre analyse permet de mettre en valeur les erreurs dues notamment à un mauvais alignement phonétique. Nous avons pu constater que les phonèmes de courte durée sont majoritairement supprimés lors du décodage phonétique. De plus, les phonèmes détectés, qu’ils soient corrects ou pas, ont tendance à avoir la même durée, ce qui est anormal pour certaines classes phonétiques comme les voyelles courtes ou les plosives. Nous avons aussi analysé les principales confusions entre les différentes classes phonétiques. Finalement, nous avons pu montrer que les erreurs lors de l’alignement phonétique des systèmes de transcription automatique entraînent beaucoup d’erreurs de détection.
Cet article présente une étude concernant l’apport du traitement automatique de la parole dans le cadre du diagnostic différentiel entre la maladie de Parkinson et l’AMS (Atrophie Multi-Systématisée). Nous proposons des outils de reconnaissance automatique de la parole pour évaluer le potentiel d’indicateurs de la parole dysarthrique caractérisant ces deux pathologies. Dans ce cadre, un corpus de parole pathologique (projet ANR Voice4PD-MSA) a été enregistré au sein des Centres Hospitaliers Universitaires (CHU) de Toulouse et Bordeaux. Les locuteurs sont des patients atteints de stades précoces de la maladie de Parkinson et d’AMS ainsi que des locuteurs témoins. Des mesures automatiques caractérisant la qualité de la reconnaissance automatique de la parole ainsi que la prosodie des patients ont montré un intérêt pour la caractérisation des pathologies étudiées et peuvent être considérées comme un outil potentiel pour l’aide à leur diagnostic différentiel.

2018

2006

This work adresses the use of confidence measures for extracting well recognized words with very low error rate from automatically transcribed segments in a unsupervised way. We present and compare several confidence measures and propose a method to merge them into a new one. We study its capabilities on extracting correct recognized word-segments compared to the amount of rejected words. We apply this fusion measure to select audio segments composed of words with a high confidence score. These segments come from an automatic transcription of french broadcast news given by our speech recognition system based on the CMU Sphinx3.3 decoder. Injecting new data resulting from unsupervised treatments of raw audio recordings in the training corpus of acoustic models gives statistically significant improvement (95% confident interval) in terms of word error rate. Experiments have been carried out on the corpus used during ESTER, the french evaluation campaign.