Les grands modèles de langue biomédicaux préentraînés sur des données hors EHR sont moins performants en contexte multilingue réel

Alina Kramchaninova, Clara L. Oeste, Narges Farokhshad, Lucas Sterckx


Abstract
Des travaux récents ont démontré que les grands modèles de langue (LLMs) sont capables de traiter des données biomédicales. Cependant, leur déploiement en zéro-shot dans les hôpitaux présente de nombreux défis. Les modèles sont souvent trop coûteux pour une inférence et un ajustement local ; leur capacité multilingue est inférieure par rapport à leur performance en anglais ; les ensembles de données de préentraînement, souvent issus de publications biomédicales, sont trop génériques pour une performance optimale, compte tenu de la complexité des scénarios cliniques présents dans les données de santé. Nous abordons ces défis et d’autres encore dans un cas d’usage multilingue réel à travers le développement d’un pipeline de normalisation de concepts de bout en bout. Son objectif principal est de convertir l’information issue de dossiers de santé non structurés (multilingues) en ontologies codifiées, permettant ainsi la détection de concepts au sein de l’historique médical d’un patient. Dans cet article, nous démontrons quantitativement l’importance de données réelles et spécifiques au domaine pour des applications cliniques à grande échelle.
Anthology ID:
2025.jeptalnrecital-mlpllm.3
Volume:
Actes de l'atelier Traitement du langage médical à l’époque des LLMs 2025 (MLP-LLM)
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
25–41
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-mlpllm.3/
DOI:
Bibkey:
Cite (ACL):
Alina Kramchaninova, Clara L. Oeste, Narges Farokhshad, and Lucas Sterckx. 2025. Les grands modèles de langue biomédicaux préentraînés sur des données hors EHR sont moins performants en contexte multilingue réel. In Actes de l'atelier Traitement du langage médical à l’époque des LLMs 2025 (MLP-LLM), pages 25–41, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Les grands modèles de langue biomédicaux préentraînés sur des données hors EHR sont moins performants en contexte multilingue réel (Kramchaninova et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-mlpllm.3.pdf