Actes de l'atelier Traitement du langage médical à l’époque des LLMs 2025 (MLP-LLM)

Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova (Editors)


Anthology ID:
2025.jeptalnrecital-mlpllm
Month:
6
Year:
2025
Address:
Marseille, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
URL:
https://aclanthology.org/2025.jeptalnrecital-mlpllm/
DOI:
Bib Export formats:
BibTeX MODS XML EndNote

pdf bib
Actes de l'atelier Traitement du langage médical à l’époque des LLMs 2025 (MLP-LLM)
Frédéric Bechet | Adrian-Gabriel Chifu | Karen Pinel-sauvagnat | Benoit Favre | Eliot Maes | Diana Nurbakova

pdf bib
Détection d’Hallucinations dans les Dossiers Médicaux Générés Automatiquement : Une Approche d’Optimisation pour les Couches Sémantiques et les Seuils Adaptatifs
Souhir Khessiba | Nadège Alavoine | Damien Forest

Les Modèles de Langage (LLM) sont susceptibles aux hallucinations, générant parfois des informations inexactes d’où un risque non négligeable, notamment dans le domaine médical où la fiabilité est essentielle. Cet article aborde deux objectifs : améliorer la qualité des dossiers médicaux et renforcer la fiabilité des cohortes de recherche. Nous présentons un système de détection des hallucinations dans les résumés médicaux générés par IA en optimisant les couches sémantiques de BERT. Notre méthodologie exploite BERT Score pour évaluer la similarité entre les phrases des rapports générés et des transcriptions originales. Notre contribution principale introduit un mécanisme à double seuil critique et alerte optimisé par l’algorithme Tree Parzen Estimator, contrairement aux approches traditionnelles à seuil unique. Les résultats démontrent des améliorations significatives dans la détection des hallucinations, avec une précision et un rappel supérieur aux méthodes de référence. Bien que notre étude soit limitée à la langue française, le système proposé assure améliore la fiabilité des informations médicales, répondant aux objectifs d’amélioration de la qualité documentaire et d’intégrité des données de recherche.

pdf bib
Evaluation et analyse des performances des grands modèles de langue sur des épreuves d’examen de médecine français
Adrien Kuhnast | Loic Verlingue

Les grands modèles de langue (GMLs) ont démontré leur capacité à répondre correctement à des questions de médecine sur des bases anglaises. Or, leur paramétrage par apprentissage profond les soumet au biais linguistique et doivent ainsi être évalués dans la langue de l’utilisateur. Nous avons évalué des GMLs sur 278 questions à choix multiples provenant d’examens de médecine (Lyon-Est 2024) de différentes spécialités et respectant les recommandations nationales. Nos résultats montrent que les GMLs sont aussi bons que les étudiants mais qu’il existe d’importantes variations selon les spécialités. Améliorer la consigne en précisant de s’appuyer sur les recommandations françaises modifie significativement les notes obtenues ce qui démontre la nécessité d’éprouver les GMLs selon différents contextes géographiques et linguistiques. Nous avons également analysé le type d’erreur que font les GMLs ce qui ouvre la porte à des améliorations plus ciblées.

pdf bib
Les grands modèles de langue biomédicaux préentraînés sur des données hors EHR sont moins performants en contexte multilingue réel
Alina Kramchaninova | Clara L. Oeste | Narges Farokhshad | Lucas Sterckx

Des travaux récents ont démontré que les grands modèles de langue (LLMs) sont capables de traiter des données biomédicales. Cependant, leur déploiement en zéro-shot dans les hôpitaux présente de nombreux défis. Les modèles sont souvent trop coûteux pour une inférence et un ajustement local ; leur capacité multilingue est inférieure par rapport à leur performance en anglais ; les ensembles de données de préentraînement, souvent issus de publications biomédicales, sont trop génériques pour une performance optimale, compte tenu de la complexité des scénarios cliniques présents dans les données de santé. Nous abordons ces défis et d’autres encore dans un cas d’usage multilingue réel à travers le développement d’un pipeline de normalisation de concepts de bout en bout. Son objectif principal est de convertir l’information issue de dossiers de santé non structurés (multilingues) en ontologies codifiées, permettant ainsi la détection de concepts au sein de l’historique médical d’un patient. Dans cet article, nous démontrons quantitativement l’importance de données réelles et spécifiques au domaine pour des applications cliniques à grande échelle.

pdf bib
Sélection ordonnée de phrases associées aux symptômes de la dépression par classification zéro-coup
Yves Ferstler | Catherine Lavoie | Marie-Jean Meurs

Cet article présente une méthode pour extraire d’un corpus les phrases les plus pertinentes pour répondre à un questionnaire d’auto-évaluation. Un modèle de classification zéro-coup évalue la similarité entre les phrases et les réponses du questionnaire. Les résultats obtenus par ce modèle frugal sont prometteurs par comparaison avec ceux d’autres grands modèles de langue.

pdf bib
Structuration Automatique de la Posologie en Français : Quel rôle pour les LLMs ?
Natalia Bobkova | Laura Zanella-Calzada | Anyes Tafoughalt | Raphaël Teboul | François Plesse | Félix Gaschi

La structuration automatique de posologie est essentielle pour fiabiliser la médication et permettre une assistance à la prescription médicale. Les textes de prescriptions en français présentent très souvent des ambiguïtés, des variabilités syntaxiques, et des expressions colloquiales, ce qui limite l’efficacité des approches classiques de machine learning. Nous étudions ici l’emploi de Grands Modèles de Langages (LLM) pour structurer les textes de posologie en comparant des méthodes fondées sur le prompt-engineering et le fine-tuning de LLM avec un système “pré-LLM” fondé sur un algorithme de reconnaissance et liaison d’entités nommées (NERL). Nos résultats montrent que seuls les LLM fine-tunés atteignent la précision du modèle de référence. L’analyse des erreurs révèle une complémentarité des deux approches : notre NERL permet une structuration plus précise, mais les LLMs captent plus efficacement les nuances sémantiques. Ainsi, nous proposons le modèle hybride suivant : faire appel à un LLM en cas de faible confiance en la sortie du NERL (<0.8) selon notre propre score de confiance. Cette stratégie nous permet d’atteindre une précision de 91% tout en minimisant le temps de latence. Nos résultats suggèrent que cette approche hybride améliore la précision de la structuration de posologie tout en limitant le coût computationnel, ce qui en fait une solution scalable pour une application clinique en conditions réelles.

pdf bib
Summarization for Generative Relation Extraction in the Microbiome Domain
Oumaima El Khettari | Solen Quiniou | Samuel Chaffron

We explore a generative relation extraction (RE) pipeline tailored to the study of interactions in the intestinal microbiome, a complex and low-resource biomedical domain. Our method leverages summarization with large language models (LLMs) to refine context before extracting relations via instruction-tuned generation. Preliminary results on a dedicated corpus show that summarization improves generative RE performance by reducing noise and guiding the model. However, BERT-based RE approaches still outperform generative models. This ongoing work demonstrates the potential of generative methods to support the study of specialized domains in low-resources setting.