@inproceedings{kuhnast-verlingue-2025-evaluation,
title = "Evaluation et analyse des performances des grands mod{\`e}les de langue sur des {\'e}preuves d{'}examen de m{\'e}decine fran{\c{c}}ais",
author = "Kuhnast, Adrien and
Verlingue, Loic",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier Traitement du langage m{\'e}dical {\`a} l'{\'e}poque des LLMs 2025 (MLP-LLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-mlpllm.2/",
pages = "14--24",
language = "fra",
abstract = "Les grands mod{\`e}les de langue (GMLs) ont d{\'e}montr{\'e} leur capacit{\'e} {\`a} r{\'e}pondre correctement {\`a} des questions de m{\'e}decine sur des bases anglaises. Or, leur param{\'e}trage par apprentissage profond les soumet au biais linguistique et doivent ainsi {\^e}tre {\'e}valu{\'e}s dans la langue de l{'}utilisateur. Nous avons {\'e}valu{\'e} des GMLs sur 278 questions {\`a} choix multiples provenant d{'}examens de m{\'e}decine (Lyon-Est 2024) de diff{\'e}rentes sp{\'e}cialit{\'e}s et respectant les recommandations nationales. Nos r{\'e}sultats montrent que les GMLs sont aussi bons que les {\'e}tudiants mais qu{'}il existe d{'}importantes variations selon les sp{\'e}cialit{\'e}s. Am{\'e}liorer la consigne en pr{\'e}cisant de s{'}appuyer sur les recommandations fran{\c{c}}aises modifie significativement les notes obtenues ce qui d{\'e}montre la n{\'e}cessit{\'e} d'{\'e}prouver les GMLs selon diff{\'e}rents contextes g{\'e}ographiques et linguistiques. Nous avons {\'e}galement analys{\'e} le type d{'}erreur que font les GMLs ce qui ouvre la porte {\`a} des am{\'e}liorations plus cibl{\'e}es."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="kuhnast-verlingue-2025-evaluation">
<titleInfo>
<title>Evaluation et analyse des performances des grands modèles de langue sur des épreuves d’examen de médecine français</title>
</titleInfo>
<name type="personal">
<namePart type="given">Adrien</namePart>
<namePart type="family">Kuhnast</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Loic</namePart>
<namePart type="family">Verlingue</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de l’atelier Traitement du langage médical à l’époque des LLMs 2025 (MLP-LLM)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les grands modèles de langue (GMLs) ont démontré leur capacité à répondre correctement à des questions de médecine sur des bases anglaises. Or, leur paramétrage par apprentissage profond les soumet au biais linguistique et doivent ainsi être évalués dans la langue de l’utilisateur. Nous avons évalué des GMLs sur 278 questions à choix multiples provenant d’examens de médecine (Lyon-Est 2024) de différentes spécialités et respectant les recommandations nationales. Nos résultats montrent que les GMLs sont aussi bons que les étudiants mais qu’il existe d’importantes variations selon les spécialités. Améliorer la consigne en précisant de s’appuyer sur les recommandations françaises modifie significativement les notes obtenues ce qui démontre la nécessité d’éprouver les GMLs selon différents contextes géographiques et linguistiques. Nous avons également analysé le type d’erreur que font les GMLs ce qui ouvre la porte à des améliorations plus ciblées.</abstract>
<identifier type="citekey">kuhnast-verlingue-2025-evaluation</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-mlpllm.2/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>14</start>
<end>24</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Evaluation et analyse des performances des grands modèles de langue sur des épreuves d’examen de médecine français
%A Kuhnast, Adrien
%A Verlingue, Loic
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de l’atelier Traitement du langage médical à l’époque des LLMs 2025 (MLP-LLM)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F kuhnast-verlingue-2025-evaluation
%X Les grands modèles de langue (GMLs) ont démontré leur capacité à répondre correctement à des questions de médecine sur des bases anglaises. Or, leur paramétrage par apprentissage profond les soumet au biais linguistique et doivent ainsi être évalués dans la langue de l’utilisateur. Nous avons évalué des GMLs sur 278 questions à choix multiples provenant d’examens de médecine (Lyon-Est 2024) de différentes spécialités et respectant les recommandations nationales. Nos résultats montrent que les GMLs sont aussi bons que les étudiants mais qu’il existe d’importantes variations selon les spécialités. Améliorer la consigne en précisant de s’appuyer sur les recommandations françaises modifie significativement les notes obtenues ce qui démontre la nécessité d’éprouver les GMLs selon différents contextes géographiques et linguistiques. Nous avons également analysé le type d’erreur que font les GMLs ce qui ouvre la porte à des améliorations plus ciblées.
%U https://aclanthology.org/2025.jeptalnrecital-mlpllm.2/
%P 14-24
Markdown (Informal)
[Evaluation et analyse des performances des grands modèles de langue sur des épreuves d’examen de médecine français](https://aclanthology.org/2025.jeptalnrecital-mlpllm.2/) (Kuhnast & Verlingue, JEP/TALN/RECITAL 2025)
ACL