@inproceedings{bachey-etal-2025-etude,
title = "{\'E}tude critique du corpus {CNN}/{D}aily{M}ail pour le r{\'e}sum{\'e} automatique",
author = "Bachey, Fanny and
Rodrigues, Christophe and
Bossard, Aur{\'e}lien",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-taln.21/",
pages = "348--359",
language = "fra",
abstract = "De nombreux mod{\`e}les de g{\'e}n{\'e}ration et d'{\'e}valuation sont entra{\^i}n{\'e}s sur des corpus sans qu{'}il ait {\'e}t{\'e} d{\'e}montr{\'e} qu{'}ils {\'e}taient appropri{\'e}s pour cette t{\^a}che. C{'}est pourquoi nous proposons l'{\'e}tude critique des donn{\'e}es de l{'}un des corpus les plus utilis{\'e}s dans le domaine du r{\'e}sum{\'e} automatique : CNN/DailyMail. Nous montrons, par une analyse th{\'e}orique, puis en comparant les r{\'e}sum{\'e}s de r{\'e}f{\'e}rence du corpus et {\`a} des r{\'e}sum{\'e}s {\'e}crits par des humains, que les r{\'e}sum{\'e}s de r{\'e}f{\'e}rence de CNN/DailyMail ne correspondent pas {\`a} ce que doit {\^e}tre un r{\'e}sum{\'e}, et que le corpus n{'}est donc pas adapt{\'e} {\`a} la t{\^a}che de r{\'e}sum{\'e} automatique."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="bachey-etal-2025-etude">
<titleInfo>
<title>Étude critique du corpus CNN/DailyMail pour le résumé automatique</title>
</titleInfo>
<name type="personal">
<namePart type="given">Fanny</namePart>
<namePart type="family">Bachey</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Rodrigues</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Aurélien</namePart>
<namePart type="family">Bossard</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>De nombreux modèles de génération et d’évaluation sont entraînés sur des corpus sans qu’il ait été démontré qu’ils étaient appropriés pour cette tâche. C’est pourquoi nous proposons l’étude critique des données de l’un des corpus les plus utilisés dans le domaine du résumé automatique : CNN/DailyMail. Nous montrons, par une analyse théorique, puis en comparant les résumés de référence du corpus et à des résumés écrits par des humains, que les résumés de référence de CNN/DailyMail ne correspondent pas à ce que doit être un résumé, et que le corpus n’est donc pas adapté à la tâche de résumé automatique.</abstract>
<identifier type="citekey">bachey-etal-2025-etude</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-taln.21/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>348</start>
<end>359</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Étude critique du corpus CNN/DailyMail pour le résumé automatique
%A Bachey, Fanny
%A Rodrigues, Christophe
%A Bossard, Aurélien
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F bachey-etal-2025-etude
%X De nombreux modèles de génération et d’évaluation sont entraînés sur des corpus sans qu’il ait été démontré qu’ils étaient appropriés pour cette tâche. C’est pourquoi nous proposons l’étude critique des données de l’un des corpus les plus utilisés dans le domaine du résumé automatique : CNN/DailyMail. Nous montrons, par une analyse théorique, puis en comparant les résumés de référence du corpus et à des résumés écrits par des humains, que les résumés de référence de CNN/DailyMail ne correspondent pas à ce que doit être un résumé, et que le corpus n’est donc pas adapté à la tâche de résumé automatique.
%U https://aclanthology.org/2025.jeptalnrecital-taln.21/
%P 348-359
Markdown (Informal)
[Étude critique du corpus CNN/DailyMail pour le résumé automatique](https://aclanthology.org/2025.jeptalnrecital-taln.21/) (Bachey et al., JEP/TALN/RECITAL 2025)
ACL