Isabelle Ferrané


2024

pdf bib
Erreurs de prononciation en L2 : comparaison de méthodes pour la détection et le diagnostic guidés par la didactique
Romain Contrain | Julien Pinquier | Lionel Fontan | Isabelle Ferrané
Actes des 35èmes Journées d'Études sur la Parole

La détection et diagnostic d’erreurs de prononciation nécessite des systèmes adaptés aux spécificités de la parole non-native. Élaborer de tels systèmes reste difficile à cause de la rareté des corpus dédiés incluant des annotations expertes. Dans cet article, nous proposons et comparons deux approches, l’une basée sur une transcription phonétique et l’autre sur l’alignement de signaux audio, élaborées dans le but de servir dans un programme d’entraînement à la prononciation assisté par ordinateur (EPAO). Nous les évaluons sur un corpus de parole non-native annoté selon des considérations didactiques, et nous trouvons que l’approche basée sur l’alignement a des propriétés préférables pour l’EPAO, dépassant la précision de l’autre approche de 31,1 et 3,8 en absolu sur deux erreurs communes des apprenants japonais du français.

pdf bib
Peut-on évaluer la compréhensibilité de la parole sans référence quant aux intentions de communication du locuteur ? Une étude auprès d’apprenants germanophones de FLE
Verdiana De Fino | Isabelle Ferrané | Julien Pinquier | Lionel Fontan
Actes des 35èmes Journées d'Études sur la Parole

En didactique des langues étrangères, la compréhensibilité des énoncés produits par les apprenants est le plus souvent évaluée de manière subjective, à l’aide d’échelles qualitatives. Très souvent, ces évaluations sont menées sans que l’évaluateur ne soit informé du contenu sémantique du message que souhaitait transmettre l’apprenant. L’évaluateur peut donc ignorer des divergences entre ce dernier et sa propre interprétation de l’énoncé – avec pour conséquence une surestimation de la compréhensibilité. Dans cette étude, nous vérifions l’existence d’un tel biais en demandant à 80 francophones natifs d’évaluer la compréhensibilité d’énoncés produits par neuf apprenants germanophones de français lors d’une tâche de traduction. L’évaluation est conduite sans référence (condition « a priori »), et en prenant connaissance d’une traduction de référence (condition « a posteriori »). Les résultats démontrent que les scores de compréhensibilité sont significativement plus élevés dans la condition a priori que dans la condition a posteriori, avec une taille d’effet importante.

pdf bib
Premier système IRIT-MyFamillyUp pour la compétition sur la reconnaissance des émotions Odyssey 2024
Adrien Lafore | Clément Pagès | Leila Moudjari | Sebastiao Quintas | Isabelle Ferrané | Hervé Bredin | Thomas Pellegrini | Farah Benamara | Jérôme Bertrand | Marie-Françoise Bertrand | Véronique Moriceau | Jérôme Farinas
Actes des 35èmes Journées d'Études sur la Parole

Dans cet article, nous présentons notre contribution à la tâche de classification des émotions dans la parole dans le cadre de notre participation à la campagne d’évaluation Odyssey 2024. Nous proposons un système hybride qui tire parti à la fois des informations du signal audio et des informations sémantiques issues des transcriptions automatiques. Les résultats montrent que l’ajout de l’information sémantique permet de dépasser les systèmes uniquement audio.

2021

pdf bib
Weakly supervised discourse segmentation for multiparty oral conversations
Lila Gravellier | Julie Hunter | Philippe Muller | Thomas Pellegrini | Isabelle Ferrané
Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing

Discourse segmentation, the first step of discourse analysis, has been shown to improve results for text summarization, translation and other NLP tasks. While segmentation models for written text tend to perform well, they are not directly applicable to spontaneous, oral conversation, which has linguistic features foreign to written text. Segmentation is less studied for this type of language, where annotated data is scarce, and existing corpora more heterogeneous. We develop a weak supervision approach to adapt, using minimal annotation, a state of the art discourse segmenter trained on written text to French conversation transcripts. Supervision is given by a latent model bootstrapped by manually defined heuristic rules that use linguistic and acoustic information. The resulting model improves the original segmenter, especially in contexts where information on speaker turns is lacking or noisy, gaining up to 13% in F-score. Evaluation is performed on data like those used to define our heuristic rules, but also on transcripts from two other corpora.

2020

pdf bib
Subjective Evaluation of Comprehensibility in Movie Interactions
Estelle Randria | Lionel Fontan | Maxime Le Coz | Isabelle Ferrané | Julien Pinquier
Proceedings of the Twelfth Language Resources and Evaluation Conference

Various research works have dealt with the comprehensibility of textual, audio, or audiovisual documents, and showed that factors related to text (e.g. linguistic complexity), sound (e.g. speech intelligibility), image (e.g. presence of visual context), or even to cognition and emotion can play a major role in the ability of humans to understand the semantic and pragmatic contents of a given document. However, to date, no reference human data is available that could help investigating the role of the linguistic and extralinguistic information present at these different levels (i.e., linguistic, audio/phonetic, and visual) in multimodal documents (e.g., movies). The present work aimed at building a corpus of human annotations that would help to study further how much and in which way the human perception of comprehensibility (i.e., of the difficulty of comprehension, referred in this paper as overall difficulty) of audiovisual documents is affected (1) by lexical complexity, grammatical complexity, and speech intelligibility, and (2) by the modality/ies (text, audio, video) available to the human recipient.

pdf bib
Étude des facteurs affectant la compréhensibilité de documents multimodaux : une étude expérimentale (Factors affecting the comprehensibility of multimodal documents : an experimental study )
Estelle Randria | Lionel Fontan | Maxime Le Coz | Isabelle Ferrané | Julien Pinquier
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

La compréhensibilité de documents audiovisuels peut dépendre de facteurs propres à l’auditeur/spectateur (ex. langue maternelle, performances cognitives) et de facteurs propres aux contenus des documents (ex. complexité linguistique, intelligibilité de la parole). Dans ces travaux, nous étudions les effets de facteurs propres aux contenus sur la compréhensibilité de 55 dialogues extraits de films, présentés à 15 experts (enseignants de français langue étrangère) selon cinq modalités différentes (transcription, transcription + audio, audio, audio + vidéo, transcription + audio + vidéo). Les experts ont évalué les dialogues en termes de compréhensibilité générale, de complexité du vocabulaire, de complexité grammaticale, et d’intelligibilité de la parole. L’analyse de leurs évaluations montre que (1) la complexité du vocabulaire, la complexité grammaticale, et l’intelligibilité de la parole sont significativement corrélées à la compréhensibilité générale, et (2) que les évaluations de compréhensibilité générale ont tendance à être plus élevées lors de présentations multimodales.

2014

pdf bib
Comparaison de mesures perceptives et automatiques de l’intelligibilité - Application à de la parole simulant la presbyacousie [Comparing perceptive and automatic measures of speech intelligibility: the case of stimuli simulating the effects of presbycusis]
Lionel Fontan | Cynthia Magnen | Julien Tardieu | Isabelle Ferrané | Julien Pinquier | Jérôme Farinas | Pascal Gaillard | Xavier Aumont
Traitement Automatique des Langues, Volume 55, Numéro 2 : Traitement automatique du langage parlé [Spoken language processing]