@inproceedings{lovon-melgarejo-etal-2025-evaluation,
title = "{\'E}valuation des capacit{\'e}s des grands mod{\`e}les de langue {\`a} comprendre les dossiers m{\'e}dicaux de patients : Une {\'e}tude approfondie de l{'}extraction et la recherche de donn{\'e}es des patients",
author = "Lov{\'o}n-Melgarejo, Jes{\'u}s and
Mouysset, Martin and
Oleiwan, Jo and
G. Moreno, Jose and
Christine-Damase-Michel and
Tamine, Lynda",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de la 20e Conf{\'e}rence en Recherche d{'}Information et Applications (CORIA)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-coria.10/",
pages = "126--127",
language = "fra",
abstract = {Les dossiers m{\'e}dicaux de patients (DMP) posent des d{\'e}fis uniques, notamment la pr{\'e}sence de d{\'e}pendances contextuelles cach{\'e}es entre les caract{\'e}ristiques m{\'e}dicales avec un niveau {\'e}lev{\'e} de dimensionnalit{\'e} et de disparit{\'e} des donn{\'e}es. Ce papier pr{\'e}sente la premi{\`e}re {\'e}tude sur les capacit{\'e}s des grands mod{\`e}les de langague {\`a} comprendre les DMP en vue d{'}en extraire ou rechercher des donn{\'e}es. Nous menons des exp{\'e}rimentations approfondies en utilisant l{'}ensemble de donn{\'e}es MIMICSQL pour explorer l{'}impact de la structure des prompts , des instructions, du contexte et des d{\'e}monstrations de deux grands mod{\`e}les de langue, Llama2 et Meditron, sur la performance des t{\^a}ches d{'}extraction et recherche d{'}information. {\`A} travers des analyses quantitatives et qualitatives, nos r{\'e}sultats montrent que les m{\'e}thodes optimales de s{\'e}lection et de s{\'e}rialisation des dossiers de patients peuvent am{\'e}liorer la performance des t{\^a}ches jusqu'{\`a} 26,79{\%} par rapport aux approches na{\"i}ves. De m{\^e}me, les sc{\'e}narios d{'}apprentissage en contexte avec s{\'e}lection d{'}exemples pertinents am{\'e}liorent la performance d{'}extraction de donn{\'e}es de 5,95{\%}. Sur la base des r{\'e}sultats de notre {\'e}tude, nous proposons des lignes directrices destin{\'e}es {\`a} faciliter la conception de mod{\`e}les bas{\'e}s sur les grands mod{\`e}les de langue pour supporter la recherche d{'}information en sant{\'e}. Les jeux de donn{\'e}es et le code sont disponibles. Ceci est le r{\'e}sum{\'e} de l{'}article ``Evaluating LLM Abilities to Understand Tabular Electronic Health Records : A Comprehensive Study of Patient Data Extraction and Retrieval'' publi{\'e} comme papier long {\`a} ECIR 2025 (Lov{\'o}n-Melgarejo et al., 2025).}
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="lovon-melgarejo-etal-2025-evaluation">
<titleInfo>
<title>Évaluation des capacités des grands modèles de langue à comprendre les dossiers médicaux de patients : Une étude approfondie de l’extraction et la recherche de données des patients</title>
</titleInfo>
<name type="personal">
<namePart type="given">Jesús</namePart>
<namePart type="family">Lovón-Melgarejo</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Martin</namePart>
<namePart type="family">Mouysset</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jo</namePart>
<namePart type="family">Oleiwan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G. Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name>
<namePart>Christine-Damase-Michel</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lynda</namePart>
<namePart type="family">Tamine</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les dossiers médicaux de patients (DMP) posent des défis uniques, notamment la présence de dépendances contextuelles cachées entre les caractéristiques médicales avec un niveau élevé de dimensionnalité et de disparité des données. Ce papier présente la première étude sur les capacités des grands modèles de langague à comprendre les DMP en vue d’en extraire ou rechercher des données. Nous menons des expérimentations approfondies en utilisant l’ensemble de données MIMICSQL pour explorer l’impact de la structure des prompts , des instructions, du contexte et des démonstrations de deux grands modèles de langue, Llama2 et Meditron, sur la performance des tâches d’extraction et recherche d’information. À travers des analyses quantitatives et qualitatives, nos résultats montrent que les méthodes optimales de sélection et de sérialisation des dossiers de patients peuvent améliorer la performance des tâches jusqu’à 26,79% par rapport aux approches naïves. De même, les scénarios d’apprentissage en contexte avec sélection d’exemples pertinents améliorent la performance d’extraction de données de 5,95%. Sur la base des résultats de notre étude, nous proposons des lignes directrices destinées à faciliter la conception de modèles basés sur les grands modèles de langue pour supporter la recherche d’information en santé. Les jeux de données et le code sont disponibles. Ceci est le résumé de l’article “Evaluating LLM Abilities to Understand Tabular Electronic Health Records : A Comprehensive Study of Patient Data Extraction and Retrieval” publié comme papier long à ECIR 2025 (Lovón-Melgarejo et al., 2025).</abstract>
<identifier type="citekey">lovon-melgarejo-etal-2025-evaluation</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-coria.10/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>126</start>
<end>127</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Évaluation des capacités des grands modèles de langue à comprendre les dossiers médicaux de patients : Une étude approfondie de l’extraction et la recherche de données des patients
%A Lovón-Melgarejo, Jesús
%A Mouysset, Martin
%A Oleiwan, Jo
%A G. Moreno, Jose
%A Tamine, Lynda
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%A Christine-Damase-Michel
%S Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F lovon-melgarejo-etal-2025-evaluation
%X Les dossiers médicaux de patients (DMP) posent des défis uniques, notamment la présence de dépendances contextuelles cachées entre les caractéristiques médicales avec un niveau élevé de dimensionnalité et de disparité des données. Ce papier présente la première étude sur les capacités des grands modèles de langague à comprendre les DMP en vue d’en extraire ou rechercher des données. Nous menons des expérimentations approfondies en utilisant l’ensemble de données MIMICSQL pour explorer l’impact de la structure des prompts , des instructions, du contexte et des démonstrations de deux grands modèles de langue, Llama2 et Meditron, sur la performance des tâches d’extraction et recherche d’information. À travers des analyses quantitatives et qualitatives, nos résultats montrent que les méthodes optimales de sélection et de sérialisation des dossiers de patients peuvent améliorer la performance des tâches jusqu’à 26,79% par rapport aux approches naïves. De même, les scénarios d’apprentissage en contexte avec sélection d’exemples pertinents améliorent la performance d’extraction de données de 5,95%. Sur la base des résultats de notre étude, nous proposons des lignes directrices destinées à faciliter la conception de modèles basés sur les grands modèles de langue pour supporter la recherche d’information en santé. Les jeux de données et le code sont disponibles. Ceci est le résumé de l’article “Evaluating LLM Abilities to Understand Tabular Electronic Health Records : A Comprehensive Study of Patient Data Extraction and Retrieval” publié comme papier long à ECIR 2025 (Lovón-Melgarejo et al., 2025).
%U https://aclanthology.org/2025.jeptalnrecital-coria.10/
%P 126-127
Markdown (Informal)
[Évaluation des capacités des grands modèles de langue à comprendre les dossiers médicaux de patients : Une étude approfondie de l’extraction et la recherche de données des patients](https://aclanthology.org/2025.jeptalnrecital-coria.10/) (Lovón-Melgarejo et al., JEP/TALN/RECITAL 2025)
ACL