@inproceedings{servan-etal-2025-comment,
title = "Comment {\'e}valuer un grand mod{\`e}le de langue dans le domaine m{\'e}dical en fran{\c{c}}ais ?",
author = "Servan, Christophe and
Grouin, Cyril and
N{\'e}v{\'e}ol, Aur{\'e}lie and
Zweigenbaum, Pierre",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier {\'E}valuation des mod{\`e}les g{\'e}n{\'e}ratifs (LLM) et challenge 2025 (EvalLLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-evalllm.5/",
pages = "51--67",
language = "fra",
abstract = "Les r{\'e}centes avanc{\'e}es en Traitement Automatique des Langues li{\'e}es aux grands mod{\`e}les de langue (LLM) auto-r{\'e}gressifs investissent {\'e}galement les domaines sp{\'e}cialis{\'e}s dont celui de la sant{\'e}. Cette {\'e}tude examine les questions qui se posent dans l'{\'e}valuation de LLM appliqu{\'e}s au domaine de la sant{\'e} en se focalisant sur le fran{\c{c}}ais. Apr{\`e}s un bref tour d{'}horizon des t{\^a}ches et des donn{\'e}es d'{\'e}valuation disponibles pour ce domaine de sp{\'e}cialit{\'e}, l{'}article examine le mode d'{\'e}valuation des LLM dans des t{\^a}ches de nature discriminante (d{\'e}tection d{'}entit{\'e}s nomm{\'e}es, classification de textes) et g{\'e}n{\'e}ratives (r{\'e}sum{\'e} de comptes rendus, g{\'e}n{\'e}ration de cas cliniques). L{'}article n{'}a pas vocation {\`a} rapporter une {\'e}valuation concr{\`e}te, mais {\`a} discuter et pr{\'e}parer la m{\'e}thodologie pour le faire."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="servan-etal-2025-comment">
<titleInfo>
<title>Comment évaluer un grand modèle de langue dans le domaine médical en français ?</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Servan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Cyril</namePart>
<namePart type="family">Grouin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Aurélie</namePart>
<namePart type="family">Névéol</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pierre</namePart>
<namePart type="family">Zweigenbaum</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les récentes avancées en Traitement Automatique des Langues liées aux grands modèles de langue (LLM) auto-régressifs investissent également les domaines spécialisés dont celui de la santé. Cette étude examine les questions qui se posent dans l’évaluation de LLM appliqués au domaine de la santé en se focalisant sur le français. Après un bref tour d’horizon des tâches et des données d’évaluation disponibles pour ce domaine de spécialité, l’article examine le mode d’évaluation des LLM dans des tâches de nature discriminante (détection d’entités nommées, classification de textes) et génératives (résumé de comptes rendus, génération de cas cliniques). L’article n’a pas vocation à rapporter une évaluation concrète, mais à discuter et préparer la méthodologie pour le faire.</abstract>
<identifier type="citekey">servan-etal-2025-comment</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-evalllm.5/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>51</start>
<end>67</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Comment évaluer un grand modèle de langue dans le domaine médical en français ?
%A Servan, Christophe
%A Grouin, Cyril
%A Névéol, Aurélie
%A Zweigenbaum, Pierre
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F servan-etal-2025-comment
%X Les récentes avancées en Traitement Automatique des Langues liées aux grands modèles de langue (LLM) auto-régressifs investissent également les domaines spécialisés dont celui de la santé. Cette étude examine les questions qui se posent dans l’évaluation de LLM appliqués au domaine de la santé en se focalisant sur le français. Après un bref tour d’horizon des tâches et des données d’évaluation disponibles pour ce domaine de spécialité, l’article examine le mode d’évaluation des LLM dans des tâches de nature discriminante (détection d’entités nommées, classification de textes) et génératives (résumé de comptes rendus, génération de cas cliniques). L’article n’a pas vocation à rapporter une évaluation concrète, mais à discuter et préparer la méthodologie pour le faire.
%U https://aclanthology.org/2025.jeptalnrecital-evalllm.5/
%P 51-67
Markdown (Informal)
[Comment évaluer un grand modèle de langue dans le domaine médical en français ?](https://aclanthology.org/2025.jeptalnrecital-evalllm.5/) (Servan et al., JEP/TALN/RECITAL 2025)
ACL