@inproceedings{herserant-guigue-2025-allsummedup,
title = "{A}ll{S}ummed{U}p : un framework open-source pour comparer les m{\'e}triques d'{\'e}valuation de r{\'e}sum{\'e}",
author = "Herserant, Tanguy and
Guigue, Vincent",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier {\'E}valuation des mod{\`e}les g{\'e}n{\'e}ratifs (LLM) et challenge 2025 (EvalLLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-evalllm.2/",
pages = "11--21",
language = "fra",
abstract = "Cet article examine les d{\'e}fis de reproductibilit{\'e} dans l'{\'e}valuation automatique des r{\'e}sum{\'e}s de textes. {\`A} partir d{'}exp{\'e}riences men{\'e}es sur six m{\'e}triques repr{\'e}sentatives allant de m{\'e}thodes classiques comme ROUGE {\`a} des approches r{\'e}centes bas{\'e}es sur les LLM (G-Eval, SEval-Ex), nous mettons en {\'e}vidence des {\'e}carts notables entre les performances rapport{\'e}es dans la litt{\'e}rature et celles observ{\'e}es dans notre cadre exp{\'e}rimental. Nous proposons un framework unifi{\'e} et open-source, appliqu{\'e} au jeu de donn{\'e}es SummEval et ouvert {\`a} de futurs jeux de donn{\'e}es, facilitant une comparaison {\'e}quitable et transparente des m{\'e}triques. Nos r{\'e}sultats r{\'e}v{\`e}lent un compromis structurel : les m{\'e}triques les mieux align{\'e}es avec les jugements humains sont aussi les plus co{\^u}teuses en calculs et les moins stables. Au-del{\`a} de cette analyse comparative, notre {\'e}tude met en garde contre l{'}utilisation croissante des LLM dans l'{\'e}valuation, en soulignant leur nature stochastique, leur d{\'e}pendance technique et leur faible reproductibilit{\'e}."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="herserant-guigue-2025-allsummedup">
<titleInfo>
<title>AllSummedUp : un framework open-source pour comparer les métriques d’évaluation de résumé</title>
</titleInfo>
<name type="personal">
<namePart type="given">Tanguy</namePart>
<namePart type="family">Herserant</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Vincent</namePart>
<namePart type="family">Guigue</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Cet article examine les défis de reproductibilité dans l’évaluation automatique des résumés de textes. À partir d’expériences menées sur six métriques représentatives allant de méthodes classiques comme ROUGE à des approches récentes basées sur les LLM (G-Eval, SEval-Ex), nous mettons en évidence des écarts notables entre les performances rapportées dans la littérature et celles observées dans notre cadre expérimental. Nous proposons un framework unifié et open-source, appliqué au jeu de données SummEval et ouvert à de futurs jeux de données, facilitant une comparaison équitable et transparente des métriques. Nos résultats révèlent un compromis structurel : les métriques les mieux alignées avec les jugements humains sont aussi les plus coûteuses en calculs et les moins stables. Au-delà de cette analyse comparative, notre étude met en garde contre l’utilisation croissante des LLM dans l’évaluation, en soulignant leur nature stochastique, leur dépendance technique et leur faible reproductibilité.</abstract>
<identifier type="citekey">herserant-guigue-2025-allsummedup</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-evalllm.2/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>11</start>
<end>21</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T AllSummedUp : un framework open-source pour comparer les métriques d’évaluation de résumé
%A Herserant, Tanguy
%A Guigue, Vincent
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F herserant-guigue-2025-allsummedup
%X Cet article examine les défis de reproductibilité dans l’évaluation automatique des résumés de textes. À partir d’expériences menées sur six métriques représentatives allant de méthodes classiques comme ROUGE à des approches récentes basées sur les LLM (G-Eval, SEval-Ex), nous mettons en évidence des écarts notables entre les performances rapportées dans la littérature et celles observées dans notre cadre expérimental. Nous proposons un framework unifié et open-source, appliqué au jeu de données SummEval et ouvert à de futurs jeux de données, facilitant une comparaison équitable et transparente des métriques. Nos résultats révèlent un compromis structurel : les métriques les mieux alignées avec les jugements humains sont aussi les plus coûteuses en calculs et les moins stables. Au-delà de cette analyse comparative, notre étude met en garde contre l’utilisation croissante des LLM dans l’évaluation, en soulignant leur nature stochastique, leur dépendance technique et leur faible reproductibilité.
%U https://aclanthology.org/2025.jeptalnrecital-evalllm.2/
%P 11-21
Markdown (Informal)
[AllSummedUp : un framework open-source pour comparer les métriques d’évaluation de résumé](https://aclanthology.org/2025.jeptalnrecital-evalllm.2/) (Herserant & Guigue, JEP/TALN/RECITAL 2025)
ACL