Comment évaluer un grand modèle de langue dans le domaine médical en français ?

Christophe Servan, Cyril Grouin, Aurélie Névéol, Pierre Zweigenbaum


Abstract
Les récentes avancées en Traitement Automatique des Langues liées aux grands modèles de langue (LLM) auto-régressifs investissent également les domaines spécialisés dont celui de la santé. Cette étude examine les questions qui se posent dans l’évaluation de LLM appliqués au domaine de la santé en se focalisant sur le français. Après un bref tour d’horizon des tâches et des données d’évaluation disponibles pour ce domaine de spécialité, l’article examine le mode d’évaluation des LLM dans des tâches de nature discriminante (détection d’entités nommées, classification de textes) et génératives (résumé de comptes rendus, génération de cas cliniques). L’article n’a pas vocation à rapporter une évaluation concrète, mais à discuter et préparer la méthodologie pour le faire.
Anthology ID:
2025.jeptalnrecital-evalllm.5
Volume:
Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
51–67
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-evalllm.5/
DOI:
Bibkey:
Cite (ACL):
Christophe Servan, Cyril Grouin, Aurélie Névéol, and Pierre Zweigenbaum. 2025. Comment évaluer un grand modèle de langue dans le domaine médical en français ?. In Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM), pages 51–67, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Comment évaluer un grand modèle de langue dans le domaine médical en français ? (Servan et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-evalllm.5.pdf