@inproceedings{kramchaninova-etal-2025-les,
title = "Les grands mod{\`e}les de langue biom{\'e}dicaux pr{\'e}entra{\^i}n{\'e}s sur des donn{\'e}es hors {EHR} sont moins performants en contexte multilingue r{\'e}el",
author = "Kramchaninova, Alina and
L. Oeste, Clara and
Farokhshad, Narges and
Sterckx, Lucas",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier Traitement du langage m{\'e}dical {\`a} l'{\'e}poque des LLMs 2025 (MLP-LLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-mlpllm.3/",
pages = "25--41",
language = "fra",
abstract = "Des travaux r{\'e}cents ont d{\'e}montr{\'e} que les grands mod{\`e}les de langue (LLMs) sont capables de traiter des donn{\'e}es biom{\'e}dicales. Cependant, leur d{\'e}ploiement en z{\'e}ro-shot dans les h{\^o}pitaux pr{\'e}sente de nombreux d{\'e}fis. Les mod{\`e}les sont souvent trop co{\^u}teux pour une inf{\'e}rence et un ajustement local ; leur capacit{\'e} multilingue est inf{\'e}rieure par rapport {\`a} leur performance en anglais ; les ensembles de donn{\'e}es de pr{\'e}entra{\^i}nement, souvent issus de publications biom{\'e}dicales, sont trop g{\'e}n{\'e}riques pour une performance optimale, compte tenu de la complexit{\'e} des sc{\'e}narios cliniques pr{\'e}sents dans les donn{\'e}es de sant{\'e}. Nous abordons ces d{\'e}fis et d{'}autres encore dans un cas d{'}usage multilingue r{\'e}el {\`a} travers le d{\'e}veloppement d{'}un pipeline de normalisation de concepts de bout en bout. Son objectif principal est de convertir l{'}information issue de dossiers de sant{\'e} non structur{\'e}s (multilingues) en ontologies codifi{\'e}es, permettant ainsi la d{\'e}tection de concepts au sein de l{'}historique m{\'e}dical d{'}un patient. Dans cet article, nous d{\'e}montrons quantitativement l{'}importance de donn{\'e}es r{\'e}elles et sp{\'e}cifiques au domaine pour des applications cliniques {\`a} grande {\'e}chelle."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="kramchaninova-etal-2025-les">
<titleInfo>
<title>Les grands modèles de langue biomédicaux préentraînés sur des données hors EHR sont moins performants en contexte multilingue réel</title>
</titleInfo>
<name type="personal">
<namePart type="given">Alina</namePart>
<namePart type="family">Kramchaninova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Clara</namePart>
<namePart type="family">L. Oeste</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Narges</namePart>
<namePart type="family">Farokhshad</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lucas</namePart>
<namePart type="family">Sterckx</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de l’atelier Traitement du langage médical à l’époque des LLMs 2025 (MLP-LLM)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Des travaux récents ont démontré que les grands modèles de langue (LLMs) sont capables de traiter des données biomédicales. Cependant, leur déploiement en zéro-shot dans les hôpitaux présente de nombreux défis. Les modèles sont souvent trop coûteux pour une inférence et un ajustement local ; leur capacité multilingue est inférieure par rapport à leur performance en anglais ; les ensembles de données de préentraînement, souvent issus de publications biomédicales, sont trop génériques pour une performance optimale, compte tenu de la complexité des scénarios cliniques présents dans les données de santé. Nous abordons ces défis et d’autres encore dans un cas d’usage multilingue réel à travers le développement d’un pipeline de normalisation de concepts de bout en bout. Son objectif principal est de convertir l’information issue de dossiers de santé non structurés (multilingues) en ontologies codifiées, permettant ainsi la détection de concepts au sein de l’historique médical d’un patient. Dans cet article, nous démontrons quantitativement l’importance de données réelles et spécifiques au domaine pour des applications cliniques à grande échelle.</abstract>
<identifier type="citekey">kramchaninova-etal-2025-les</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-mlpllm.3/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>25</start>
<end>41</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Les grands modèles de langue biomédicaux préentraînés sur des données hors EHR sont moins performants en contexte multilingue réel
%A Kramchaninova, Alina
%A L. Oeste, Clara
%A Farokhshad, Narges
%A Sterckx, Lucas
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de l’atelier Traitement du langage médical à l’époque des LLMs 2025 (MLP-LLM)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F kramchaninova-etal-2025-les
%X Des travaux récents ont démontré que les grands modèles de langue (LLMs) sont capables de traiter des données biomédicales. Cependant, leur déploiement en zéro-shot dans les hôpitaux présente de nombreux défis. Les modèles sont souvent trop coûteux pour une inférence et un ajustement local ; leur capacité multilingue est inférieure par rapport à leur performance en anglais ; les ensembles de données de préentraînement, souvent issus de publications biomédicales, sont trop génériques pour une performance optimale, compte tenu de la complexité des scénarios cliniques présents dans les données de santé. Nous abordons ces défis et d’autres encore dans un cas d’usage multilingue réel à travers le développement d’un pipeline de normalisation de concepts de bout en bout. Son objectif principal est de convertir l’information issue de dossiers de santé non structurés (multilingues) en ontologies codifiées, permettant ainsi la détection de concepts au sein de l’historique médical d’un patient. Dans cet article, nous démontrons quantitativement l’importance de données réelles et spécifiques au domaine pour des applications cliniques à grande échelle.
%U https://aclanthology.org/2025.jeptalnrecital-mlpllm.3/
%P 25-41
Markdown (Informal)
[Les grands modèles de langue biomédicaux préentraînés sur des données hors EHR sont moins performants en contexte multilingue réel](https://aclanthology.org/2025.jeptalnrecital-mlpllm.3/) (Kramchaninova et al., JEP/TALN/RECITAL 2025)
ACL