@inproceedings{gatti-pinheiro-etal-2025-peut,
title = "Peut-on faire confiance aux juges ? Validation de m{\'e}thodes d'{\'e}valuation de la factualit{\'e} par perturbation des r{\'e}ponses",
author = {Gatti Pinheiro, Giovanni and
Gharsallah, Sarra and
Robaldo, Ad{\`e}le and
Tokareva, Mariia and
Guendouz, Ilyana and
Troncy, Rapha{\"e}l and
Papotti, Paolo and
Michiardi, Pietro},
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier {\'E}valuation des mod{\`e}les g{\'e}n{\'e}ratifs (LLM) et challenge 2025 (EvalLLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-evalllm.19/",
pages = "228--252",
language = "fra",
abstract = "{\'E}valuer la v{\'e}racit{\'e} des grands mod{\`e}les de langage (LLMs) est essentiel pour de nombreuses applications. Cependant, nos outils d'{\'e}valuation sont-ils eux-m{\^e}mes fiables ? Malgr{\'e} la prolif{\'e}ration des m{\'e}triques de factualit{\'e}, leur sensibilit{\'e} et leur fiabilit{\'e} restent peu {\'e}tudi{\'e}es. Cet article introduit un cadre de m{\'e}ta-{\'e}valuation qui teste syst{\'e}matiquement ces m{\'e}triques en appliquant des corruptions contr{\^o}l{\'e}es {\`a} des r{\'e}ponses de r{\'e}f{\'e}rence. Notre m{\'e}thode g{\'e}n{\`e}re des sorties class{\'e}es selon des degr{\'e}s connus de d{\'e}gradation afin d{'}analyser comment les m{\'e}triques capturent les variations subtiles de v{\'e}racit{\'e}. Nos exp{\'e}riences montrent que les m{\'e}thodes disponibles dans les framework d'{\'e}valuation, telles que la m{\'e}trique factual correctness de RAGAS, suivent mieux la d{\'e}gradation que les approches de type LLM-as-judge. Nous proposons {\'e}galement une nouvelle variante de la m{\'e}trique de factualit{\'e}, {\`a} la fois comp{\'e}titive et {\'e}conomique."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="gatti-pinheiro-etal-2025-peut">
<titleInfo>
<title>Peut-on faire confiance aux juges ? Validation de méthodes d’évaluation de la factualité par perturbation des réponses</title>
</titleInfo>
<name type="personal">
<namePart type="given">Giovanni</namePart>
<namePart type="family">Gatti Pinheiro</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sarra</namePart>
<namePart type="family">Gharsallah</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adèle</namePart>
<namePart type="family">Robaldo</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Mariia</namePart>
<namePart type="family">Tokareva</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Ilyana</namePart>
<namePart type="family">Guendouz</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Raphaël</namePart>
<namePart type="family">Troncy</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Paolo</namePart>
<namePart type="family">Papotti</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pietro</namePart>
<namePart type="family">Michiardi</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Évaluer la véracité des grands modèles de langage (LLMs) est essentiel pour de nombreuses applications. Cependant, nos outils d’évaluation sont-ils eux-mêmes fiables ? Malgré la prolifération des métriques de factualité, leur sensibilité et leur fiabilité restent peu étudiées. Cet article introduit un cadre de méta-évaluation qui teste systématiquement ces métriques en appliquant des corruptions contrôlées à des réponses de référence. Notre méthode génère des sorties classées selon des degrés connus de dégradation afin d’analyser comment les métriques capturent les variations subtiles de véracité. Nos expériences montrent que les méthodes disponibles dans les framework d’évaluation, telles que la métrique factual correctness de RAGAS, suivent mieux la dégradation que les approches de type LLM-as-judge. Nous proposons également une nouvelle variante de la métrique de factualité, à la fois compétitive et économique.</abstract>
<identifier type="citekey">gatti-pinheiro-etal-2025-peut</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-evalllm.19/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>228</start>
<end>252</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Peut-on faire confiance aux juges ? Validation de méthodes d’évaluation de la factualité par perturbation des réponses
%A Gatti Pinheiro, Giovanni
%A Gharsallah, Sarra
%A Robaldo, Adèle
%A Tokareva, Mariia
%A Guendouz, Ilyana
%A Troncy, Raphaël
%A Papotti, Paolo
%A Michiardi, Pietro
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F gatti-pinheiro-etal-2025-peut
%X Évaluer la véracité des grands modèles de langage (LLMs) est essentiel pour de nombreuses applications. Cependant, nos outils d’évaluation sont-ils eux-mêmes fiables ? Malgré la prolifération des métriques de factualité, leur sensibilité et leur fiabilité restent peu étudiées. Cet article introduit un cadre de méta-évaluation qui teste systématiquement ces métriques en appliquant des corruptions contrôlées à des réponses de référence. Notre méthode génère des sorties classées selon des degrés connus de dégradation afin d’analyser comment les métriques capturent les variations subtiles de véracité. Nos expériences montrent que les méthodes disponibles dans les framework d’évaluation, telles que la métrique factual correctness de RAGAS, suivent mieux la dégradation que les approches de type LLM-as-judge. Nous proposons également une nouvelle variante de la métrique de factualité, à la fois compétitive et économique.
%U https://aclanthology.org/2025.jeptalnrecital-evalllm.19/
%P 228-252
Markdown (Informal)
[Peut-on faire confiance aux juges ? Validation de méthodes d’évaluation de la factualité par perturbation des réponses](https://aclanthology.org/2025.jeptalnrecital-evalllm.19/) (Gatti Pinheiro et al., JEP/TALN/RECITAL 2025)
ACL
- Giovanni Gatti Pinheiro, Sarra Gharsallah, Adèle Robaldo, Mariia Tokareva, Ilyana Guendouz, Raphaël Troncy, Paolo Papotti, and Pietro Michiardi. 2025. Peut-on faire confiance aux juges ? Validation de méthodes d’évaluation de la factualité par perturbation des réponses. In Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM), pages 228–252, Marseille, France. ATALA \\& ARIA.