@inproceedings{grina-kalashnikova-2025-evaluation,
title = "{\'E}valuation de la Robustesse des {LLM} : Proposition d{'}un Cadre M{\'e}thodologique et D{\'e}veloppement d{'}un Benchmark",
author = "Grina, Fares and
Kalashnikova, Natalia",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier {\'E}valuation des mod{\`e}les g{\'e}n{\'e}ratifs (LLM) et challenge 2025 (EvalLLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-evalllm.13/",
pages = "151--163",
language = "fra",
abstract = "L'{\'e}valuation fiable des grands mod{\`e}les de langage (LLM) demeure un d{\'e}fi. Nous pr{\'e}sentons un framework syst{\'e}matique, bas{\'e} sur des tests de robustesse et une {\'e}valuation hybride. Il g{\'e}n{\`e}re des variantes de benchmarks pour tester la stabilit{\'e} des LLM. Les r{\'e}ponses sont {\'e}valu{\'e}es par une double approche automatique (LLM-as-a-judge et une {\'e}valuation quantitative). Comme contexte applicatif pour ce type d'{\'e}valuation, nous pr{\'e}sentons la cr{\'e}ation et l{'}annotation d{'}un benchmark pour l{'}extraction d{'}information {\`a} partir d{'}appels d{'}offres. Un m{\'e}canisme de d{\'e}tection compare ensuite les {\'e}valuations automatiques ; les d{\'e}saccords importants d{\'e}clenchent une expertise humaine cibl{\'e}e. En agr{\'e}geant les scores automatiques coh{\'e}rents et les jugements humains, notre approche vise {\`a} fournir une mesure de performance et de robustesse plus fiable. Ce processus quantifie {\'e}galement le taux de d{\'e}saccord entre m{\'e}thodes automatiques, offrant le potentiel pour une comparaison plus transparente et {\'e}quitable des LLM."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="grina-kalashnikova-2025-evaluation">
<titleInfo>
<title>Évaluation de la Robustesse des LLM : Proposition d’un Cadre Méthodologique et Développement d’un Benchmark</title>
</titleInfo>
<name type="personal">
<namePart type="given">Fares</namePart>
<namePart type="family">Grina</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Natalia</namePart>
<namePart type="family">Kalashnikova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L’évaluation fiable des grands modèles de langage (LLM) demeure un défi. Nous présentons un framework systématique, basé sur des tests de robustesse et une évaluation hybride. Il génère des variantes de benchmarks pour tester la stabilité des LLM. Les réponses sont évaluées par une double approche automatique (LLM-as-a-judge et une évaluation quantitative). Comme contexte applicatif pour ce type d’évaluation, nous présentons la création et l’annotation d’un benchmark pour l’extraction d’information à partir d’appels d’offres. Un mécanisme de détection compare ensuite les évaluations automatiques ; les désaccords importants déclenchent une expertise humaine ciblée. En agrégeant les scores automatiques cohérents et les jugements humains, notre approche vise à fournir une mesure de performance et de robustesse plus fiable. Ce processus quantifie également le taux de désaccord entre méthodes automatiques, offrant le potentiel pour une comparaison plus transparente et équitable des LLM.</abstract>
<identifier type="citekey">grina-kalashnikova-2025-evaluation</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-evalllm.13/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>151</start>
<end>163</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Évaluation de la Robustesse des LLM : Proposition d’un Cadre Méthodologique et Développement d’un Benchmark
%A Grina, Fares
%A Kalashnikova, Natalia
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F grina-kalashnikova-2025-evaluation
%X L’évaluation fiable des grands modèles de langage (LLM) demeure un défi. Nous présentons un framework systématique, basé sur des tests de robustesse et une évaluation hybride. Il génère des variantes de benchmarks pour tester la stabilité des LLM. Les réponses sont évaluées par une double approche automatique (LLM-as-a-judge et une évaluation quantitative). Comme contexte applicatif pour ce type d’évaluation, nous présentons la création et l’annotation d’un benchmark pour l’extraction d’information à partir d’appels d’offres. Un mécanisme de détection compare ensuite les évaluations automatiques ; les désaccords importants déclenchent une expertise humaine ciblée. En agrégeant les scores automatiques cohérents et les jugements humains, notre approche vise à fournir une mesure de performance et de robustesse plus fiable. Ce processus quantifie également le taux de désaccord entre méthodes automatiques, offrant le potentiel pour une comparaison plus transparente et équitable des LLM.
%U https://aclanthology.org/2025.jeptalnrecital-evalllm.13/
%P 151-163
Markdown (Informal)
[Évaluation de la Robustesse des LLM : Proposition d’un Cadre Méthodologique et Développement d’un Benchmark](https://aclanthology.org/2025.jeptalnrecital-evalllm.13/) (Grina & Kalashnikova, JEP/TALN/RECITAL 2025)
ACL