Nadège Alavoine

Also published as: Nadége Alavoine

2025

Détection d’Hallucinations dans les Dossiers Médicaux Générés Automatiquement : Une Approche d’Optimisation pour les Couches Sémantiques et les Seuils Adaptatifs
Souhir Khessiba | Nadège Alavoine | Damien Forest
Actes de l'atelier Traitement du langage médical à l’époque des LLMs 2025 (MLP-LLM)

Les Modèles de Langage (LLM) sont susceptibles aux hallucinations, générant parfois des informations inexactes d’où un risque non négligeable, notamment dans le domaine médical où la fiabilité est essentielle. Cet article aborde deux objectifs : améliorer la qualité des dossiers médicaux et renforcer la fiabilité des cohortes de recherche. Nous présentons un système de détection des hallucinations dans les résumés médicaux générés par IA en optimisant les couches sémantiques de BERT. Notre méthodologie exploite BERT Score pour évaluer la similarité entre les phrases des rapports générés et des transcriptions originales. Notre contribution principale introduit un mécanisme à double seuil critique et alerte optimisé par l’algorithme Tree Parzen Estimator, contrairement aux approches traditionnelles à seuil unique. Les résultats démontrent des améliorations significatives dans la détection des hallucinations, avec une précision et un rappel supérieur aux méthodes de référence. Bien que notre étude soit limitée à la langue française, le système proposé assure améliore la fiabilité des informations médicales, répondant aux objectifs d’amélioration de la qualité documentaire et d’intégrité des données de recherche.

2024

pdf bib abs

New Semantic Task for the French Spoken Language Understanding MEDIA Benchmark
Nadège Alavoine | Gaëlle Laperrière | Christophe Servan | Sahar Ghannay | Sophie Rosset
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

Intent classification and slot-filling are essential tasks of Spoken Language Understanding (SLU). In most SLU systems, those tasks are realized by independent modules, but for about fifteen years, models achieving both of them jointly and exploiting their mutual enhancement have been proposed. A multilingual module using a joint model was envisioned to create a touristic dialogue system for a European project, HumanE-AI-Net. A combination of multiple datasets, including the MEDIA dataset, was suggested for training this joint model. The MEDIA SLU dataset is a French dataset distributed since 2005 by ELRA, mainly used by the French research community and free for academic research since 2020. Unfortunately, it is annotated only in slots but not intents. An enhanced version of MEDIA annotated with intents has been built to extend its use to more tasks and use cases. This paper presents the semi-automatic methodology used to obtain this enhanced version. In addition, we present the first results of SLU experiments on this enhanced dataset using joint models for intent classification and slot-filling.

pdf bib abs

Neural text generation is receiving broad attention with the publication of new tools such as ChatGPT. The main reason for that is that the achieved quality of the generated text may be attributed to a human writer by the naked eye of a human evaluator. In this paper, we propose a new corpus in French and English for the task of recognising automatically generated texts and we conduct a study of how humans perceive the text. Our results show, as previous work before the ChatGPT era, that the generated texts by tools such as ChatGPT share some common characteristics but they are not clearly identifiable which generates different perceptions of these texts.

pdf bib abs

La génération de textes neuronaux fait l’objet d’une grande attention avec la publication de nouveaux outils tels que ChatGPT. La principale raison en est que la qualité du texte généré automatiquement peut être attribuée à un$cdot$e rédacteurice humain$cdot$e même quand l’évaluation est faite par un humain. Dans cet article, nous proposons un nouveau corpus en français et en anglais pour la tâche d’identification de textes générés automatiquement et nous menons une étude sur la façon dont les humains perçoivent ce texte. Nos résultats montrent, comme les travaux antérieurs à l’ère de ChatGPT, que les textes générés par des outils tels que ChatGPT partagent certaines caractéristiques communes mais qu’ils ne sont pas clairement identifiables, ce qui génère des perceptions différentes de ces textes par l’humain.

pdf bib abs

Nouvelle tâche sémantique pour le corpus de compréhension de parole en français MEDIA
Nadège Alavoine | Gaëlle Laperrière | Christophe Servan | Sahar Ghannay | Sophie Rosset
Actes des 35èmes Journées d'Études sur la Parole

La détection d’intention et de concepts sont des tâches essentielles de la compréhension de la parole(SLU). Or il n’existe que peu de données annotées en français permettant d’effectuer ces deux tâches conjointement. Cependant, il existe des ensembles de données annotées en concept, dont le corpus MEDIA. Ce corpus est considéré comme l’un des plus difficiles. Néanmoins, il ne comporte que des annotations en concepts et pas en intentions. Dans cet article, nous proposons une version étendue de MEDIA annotée en intentions pour étendre son utilisation. Cet article présente une méthode semi-automatique pour obtenir cette version étendue. De plus, nous présentons les premiers résultats des expériences menées sur cet ensemble de données en utilisant des modèles joints pour la classification des intentions et la détection de concepts.

2023

pdf bib abs

Mise en place d’un modèle compact à architecture Transformer pour la détection jointe des intentions et des concepts dans le cadre d’un système interactif de questions-réponses
Nadège Alavoine | Arthur Babin
Actes de CORIA-TALN 2023. Actes des 16e Rencontres Jeunes Chercheurs en RI (RJCRI) et 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL)

Les tâches de détection d’intention et d’identification des concepts sont toutes deux des éléments importants de la compréhension de la parole. Elles sont souvent réalisées par deux modules différents au sein d’un pipeline. L’apparition de modèles réalisant conjointement ces deux tâches a permis d’exploiter les dépendances entre elles et d’améliorer les performances obtenues. Plus récemment, des modèles de détection jointe reposant sur des architectures Transformer ont été décrits dans la littérature. Par ailleurs, avec la popularité et taille croissante des modèles Transformer ainsi que les inquiétudes ergonomiques et écologiques grandissantes, des modèles compacts ont été proposés. Dans cet article, nous présentons la mise en place et l’évaluation d’un modèle compact pour la détection jointe de l’intention et des concepts. Notre contexte applicatif est celui d’un système interactif de questions-réponses français.