Étude critique du corpus CNN/DailyMail pour le résumé automatique

Fanny Bachey, Christophe Rodrigues, Aurélien Bossard


Abstract
De nombreux modèles de génération et d’évaluation sont entraînés sur des corpus sans qu’il ait été démontré qu’ils étaient appropriés pour cette tâche. C’est pourquoi nous proposons l’étude critique des données de l’un des corpus les plus utilisés dans le domaine du résumé automatique : CNN/DailyMail. Nous montrons, par une analyse théorique, puis en comparant les résumés de référence du corpus et à des résumés écrits par des humains, que les résumés de référence de CNN/DailyMail ne correspondent pas à ce que doit être un résumé, et que le corpus n’est donc pas adapté à la tâche de résumé automatique.
Anthology ID:
2025.jeptalnrecital-taln.21
Volume:
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
348–359
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-taln.21/
DOI:
Bibkey:
Cite (ACL):
Fanny Bachey, Christophe Rodrigues, and Aurélien Bossard. 2025. Étude critique du corpus CNN/DailyMail pour le résumé automatique. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux, pages 348–359, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Étude critique du corpus CNN/DailyMail pour le résumé automatique (Bachey et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-taln.21.pdf