La confiance de Mistral-7B est-elle justifiée ? Une évaluation en auto-estimation pour les questions biomédicales

Laura Zanella, Ambroise Baril


Abstract
Évaluer la fiabilité des grands modèles de langage (LLMs) dans des tâches de question-réponse biomédicale est essentiel pour leur déploiement en toute sécurité dans des contextes médicaux. Dans cette étude, nous examinons si Mistral-7B est capable d’estimer avec précision la confiance qu’il accorde à ses propres réponses, en comparant ses scores de similarité auto-attribués à la similarité- cosinus avec des réponses de référence. Nos résultats montrent que Mistral-7B présente une forte tendance à la surconfiance, attribuant systématiquement des scores de similarité élevés, même lorsque la qualité des réponses varie. L’introduction de la génération augmentée par récupération (RAG) améliore la précision des réponses, comme en témoignent les valeurs plus élevées de similarité- cosinus, mais n’améliore pas significativement la calibration de la confiance. Bien que RAG réduise la surconfiance et améliore la corrélation entre les scores de similarité prédits et réels, le modèle continue de surestimer systématiquement la qualité de ses réponses. Ces résultats soulignent la nécessité de mécanismes d’estimation de confiance plus efficaces, afin d’aligner les auto-évaluations du modèle sur la précision réelle de ses réponses. Notre étude montre l’importance d’affiner les techniques de calibration des LLMs pour renforcer leur fiabilité dans les applications biomédicales.
Anthology ID:
2025.jeptalnrecital-taln.28
Volume:
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
467–476
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-taln.28/
DOI:
Bibkey:
Cite (ACL):
Laura Zanella and Ambroise Baril. 2025. La confiance de Mistral-7B est-elle justifiée ? Une évaluation en auto-estimation pour les questions biomédicales. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux, pages 467–476, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
La confiance de Mistral-7B est-elle justifiée ? Une évaluation en auto-estimation pour les questions biomédicales (Zanella & Baril, JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-taln.28.pdf