Charles Brazier
2024
La reconnaissance automatique de phonèmes est-elle réellement adaptée pour l’analyse de la parole spontanée ?
Vincent P. Martin
|
Colleen Beaumard
|
Charles Brazier
|
Jean-Luc Rouas
|
Yaru Wu
Actes des 35èmes Journées d'Études sur la Parole
La transcription phonémique automatique de la parole spontanée trouve des applications variées, notamment dans l’éducation et la surveillance de la santé. Ces transcriptions sont habituellement évaluées soit par la précision de l’identification des phonèmes, soit par leur segmentation temporelle. Jusqu’à présent, aucun système n’a été évalué simultanément sur ces deux tâches. Cet article présente l’évaluation d’un système de transcription phonétique du français spontané (corpus Rhapsodie) basé sur Kaldi. Ce système montre de bons résultats en identification des phonèmes et de leurs catégories, avec des taux d’erreur de 19,2 et 13,4 respectivement. Il est cependant moins performant en segmentation, manquant en moyenne 40 de la durée des phonèmes et 34 des catégories. Les performances s’améliorent avec le niveau de planification de la parole. Ces résultats soulignent le besoin de systèmes de transcription phonétique automatique fiables, nécessaires à des analyses plus approfondies de la parole spontanée.
Conditioning LLMs with Emotion in Neural Machine Translation
Charles Brazier
|
Jean-Luc Rouas
Proceedings of the 21st International Conference on Spoken Language Translation (IWSLT 2024)
Large Language Models (LLMs) have shown remarkable performance in Natural Language Processing tasks, including Machine Translation (MT). In this work, we propose a novel MT pipeline that integrates emotion information extracted from a Speech Emotion Recognition (SER) model into LLMs to enhance translation quality. We first fine-tune five existing LLMs on the Libri-trans dataset and select the most performant model. Subsequently, we augment LLM prompts with different dimensional emotions and train the selected LLM under these different configurations. Our experiments reveal that integrating emotion information, especially arousal, into LLM prompts leads to notable improvements in translation quality.
2021
Improving Real-time Score Following in Opera by Combining Music with Lyrics Tracking
Charles Brazier
|
Gerhard Widmer
Proceedings of the 2nd Workshop on NLP for Music and Spoken Audio (NLP4MusA)
Search