@inproceedings{zanella-baril-2025-la,
title = "La confiance de Mistral-7{B} est-elle justifi{\'e}e ? Une {\'e}valuation en auto-estimation pour les questions biom{\'e}dicales",
author = "Zanella, Laura and
Baril, Ambroise",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-taln.28/",
pages = "467--476",
language = "fra",
abstract = "{\'E}valuer la fiabilit{\'e} des grands mod{\`e}les de langage (LLMs) dans des t{\^a}ches de question-r{\'e}ponse biom{\'e}dicale est essentiel pour leur d{\'e}ploiement en toute s{\'e}curit{\'e} dans des contextes m{\'e}dicaux. Dans cette {\'e}tude, nous examinons si Mistral-7B est capable d{'}estimer avec pr{\'e}cision la confiance qu{'}il accorde {\`a} ses propres r{\'e}ponses, en comparant ses scores de similarit{\'e} auto-attribu{\'e}s {\`a} la similarit{\'e}- cosinus avec des r{\'e}ponses de r{\'e}f{\'e}rence. Nos r{\'e}sultats montrent que Mistral-7B pr{\'e}sente une forte tendance {\`a} la surconfiance, attribuant syst{\'e}matiquement des scores de similarit{\'e} {\'e}lev{\'e}s, m{\^e}me lorsque la qualit{\'e} des r{\'e}ponses varie. L{'}introduction de la g{\'e}n{\'e}ration augment{\'e}e par r{\'e}cup{\'e}ration (RAG) am{\'e}liore la pr{\'e}cision des r{\'e}ponses, comme en t{\'e}moignent les valeurs plus {\'e}lev{\'e}es de similarit{\'e}- cosinus, mais n{'}am{\'e}liore pas significativement la calibration de la confiance. Bien que RAG r{\'e}duise la surconfiance et am{\'e}liore la corr{\'e}lation entre les scores de similarit{\'e} pr{\'e}dits et r{\'e}els, le mod{\`e}le continue de surestimer syst{\'e}matiquement la qualit{\'e} de ses r{\'e}ponses. Ces r{\'e}sultats soulignent la n{\'e}cessit{\'e} de m{\'e}canismes d{'}estimation de confiance plus efficaces, afin d{'}aligner les auto-{\'e}valuations du mod{\`e}le sur la pr{\'e}cision r{\'e}elle de ses r{\'e}ponses. Notre {\'e}tude montre l{'}importance d{'}affiner les techniques de calibration des LLMs pour renforcer leur fiabilit{\'e} dans les applications biom{\'e}dicales."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="zanella-baril-2025-la">
<titleInfo>
<title>La confiance de Mistral-7B est-elle justifiée ? Une évaluation en auto-estimation pour les questions biomédicales</title>
</titleInfo>
<name type="personal">
<namePart type="given">Laura</namePart>
<namePart type="family">Zanella</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Ambroise</namePart>
<namePart type="family">Baril</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Évaluer la fiabilité des grands modèles de langage (LLMs) dans des tâches de question-réponse biomédicale est essentiel pour leur déploiement en toute sécurité dans des contextes médicaux. Dans cette étude, nous examinons si Mistral-7B est capable d’estimer avec précision la confiance qu’il accorde à ses propres réponses, en comparant ses scores de similarité auto-attribués à la similarité- cosinus avec des réponses de référence. Nos résultats montrent que Mistral-7B présente une forte tendance à la surconfiance, attribuant systématiquement des scores de similarité élevés, même lorsque la qualité des réponses varie. L’introduction de la génération augmentée par récupération (RAG) améliore la précision des réponses, comme en témoignent les valeurs plus élevées de similarité- cosinus, mais n’améliore pas significativement la calibration de la confiance. Bien que RAG réduise la surconfiance et améliore la corrélation entre les scores de similarité prédits et réels, le modèle continue de surestimer systématiquement la qualité de ses réponses. Ces résultats soulignent la nécessité de mécanismes d’estimation de confiance plus efficaces, afin d’aligner les auto-évaluations du modèle sur la précision réelle de ses réponses. Notre étude montre l’importance d’affiner les techniques de calibration des LLMs pour renforcer leur fiabilité dans les applications biomédicales.</abstract>
<identifier type="citekey">zanella-baril-2025-la</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-taln.28/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>467</start>
<end>476</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T La confiance de Mistral-7B est-elle justifiée ? Une évaluation en auto-estimation pour les questions biomédicales
%A Zanella, Laura
%A Baril, Ambroise
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F zanella-baril-2025-la
%X Évaluer la fiabilité des grands modèles de langage (LLMs) dans des tâches de question-réponse biomédicale est essentiel pour leur déploiement en toute sécurité dans des contextes médicaux. Dans cette étude, nous examinons si Mistral-7B est capable d’estimer avec précision la confiance qu’il accorde à ses propres réponses, en comparant ses scores de similarité auto-attribués à la similarité- cosinus avec des réponses de référence. Nos résultats montrent que Mistral-7B présente une forte tendance à la surconfiance, attribuant systématiquement des scores de similarité élevés, même lorsque la qualité des réponses varie. L’introduction de la génération augmentée par récupération (RAG) améliore la précision des réponses, comme en témoignent les valeurs plus élevées de similarité- cosinus, mais n’améliore pas significativement la calibration de la confiance. Bien que RAG réduise la surconfiance et améliore la corrélation entre les scores de similarité prédits et réels, le modèle continue de surestimer systématiquement la qualité de ses réponses. Ces résultats soulignent la nécessité de mécanismes d’estimation de confiance plus efficaces, afin d’aligner les auto-évaluations du modèle sur la précision réelle de ses réponses. Notre étude montre l’importance d’affiner les techniques de calibration des LLMs pour renforcer leur fiabilité dans les applications biomédicales.
%U https://aclanthology.org/2025.jeptalnrecital-taln.28/
%P 467-476
Markdown (Informal)
[La confiance de Mistral-7B est-elle justifiée ? Une évaluation en auto-estimation pour les questions biomédicales](https://aclanthology.org/2025.jeptalnrecital-taln.28/) (Zanella & Baril, JEP/TALN/RECITAL 2025)
ACL