Étude critique du corpus CNN/DailyMail pour le résumé automatique

Fanny Bachey; Christophe Rodrigues; Aurélien Bossard

Étude critique du corpus CNN/DailyMail pour le résumé automatique

Fanny Bachey, Christophe Rodrigues, Aurélien Bossard

Correct Metadata for

Use this form to create a GitHub issue with structured data describing the correction. You will need a GitHub account. Once you create that issue, the correction will be reviewed by a staff member.

⚠️ Mobile Users: Submitting this form to create a new issue will only work with github.com, not the GitHub Mobile app.

Important: The Anthology treat PDFs as authoritative. Please use this form only to correct data that is out of line with the PDF. See our corrections guidelines if you need to change the PDF.

Title Adjust the title. Retain tags such as <fixed-case>.

Authors Adjust author names and order to match the PDF.

Abstract Correct abstract if needed. Retain XML formatting tags such as <tex-math>. You may use <b>...</b> for bold, <i>...</i> for italic, and <url>...</url> for URLs.

Verification against PDF Ensure that the new title/authors match the snapshot below. (If there is no snapshot or it is too small, consult the PDF.)

Authors concatenated from the text boxes above:

ALL author names match the snapshot above—including middle initials, hyphens, and accents.

Abstract

De nombreux modèles de génération et d’évaluation sont entraînés sur des corpus sans qu’il ait été démontré qu’ils étaient appropriés pour cette tâche. C’est pourquoi nous proposons l’étude critique des données de l’un des corpus les plus utilisés dans le domaine du résumé automatique : CNN/DailyMail. Nous montrons, par une analyse théorique, puis en comparant les résumés de référence du corpus et à des résumés écrits par des humains, que les résumés de référence de CNN/DailyMail ne correspondent pas à ce que doit être un résumé, et que le corpus n’est donc pas adapté à la tâche de résumé automatique.

Anthology ID:: 2025.jeptalnrecital-taln.21
Volume:: Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
Month:: 6
Year:: 2025
Address:: Marseille, France
Editors:: Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
Note:
Pages:: 348–359
Language:: French
URL:: https://aclanthology.org/2025.jeptalnrecital-taln.21/
DOI:
Bibkey:
Cite (ACL):: Fanny Bachey, Christophe Rodrigues, and Aurélien Bossard. 2025. Étude critique du corpus CNN/DailyMail pour le résumé automatique. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux, pages 348–359, Marseille, France. ATALA \\& ARIA.
Cite (Informal):: Étude critique du corpus CNN/DailyMail pour le résumé automatique (Bachey et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.jeptalnrecital-taln.21.pdf

PDF Cite Search Fix data

Export citation

BibTeX
MODS XML
Endnote
Preformatted

@inproceedings{bachey-etal-2025-etude,
    title = "{\'E}tude critique du corpus {CNN}/{D}aily{M}ail pour le r{\'e}sum{\'e} automatique",
    author = "Bachey, Fanny  and
      Rodrigues, Christophe  and
      Bossard, Aur{\'e}lien",
    editor = "Bechet, Fr{\'e}d{\'e}ric  and
      Chifu, Adrian-Gabriel  and
      Pinel-sauvagnat, Karen  and
      Favre, Benoit  and
      Maes, Eliot  and
      Nurbakova, Diana",
    booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2025",
    address = "Marseille, France",
    publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
    url = "https://aclanthology.org/2025.jeptalnrecital-taln.21/",
    pages = "348--359",
    language = "fra",
    abstract = "De nombreux mod{\`e}les de g{\'e}n{\'e}ration et d'{\'e}valuation sont entra{\^i}n{\'e}s sur des corpus sans qu{'}il ait {\'e}t{\'e} d{\'e}montr{\'e} qu{'}ils {\'e}taient appropri{\'e}s pour cette t{\^a}che. C{'}est pourquoi nous proposons l'{\'e}tude critique des donn{\'e}es de l{'}un des corpus les plus utilis{\'e}s dans le domaine du r{\'e}sum{\'e} automatique : CNN/DailyMail. Nous montrons, par une analyse th{\'e}orique, puis en comparant les r{\'e}sum{\'e}s de r{\'e}f{\'e}rence du corpus et {\`a} des r{\'e}sum{\'e}s {\'e}crits par des humains, que les r{\'e}sum{\'e}s de r{\'e}f{\'e}rence de CNN/DailyMail ne correspondent pas {\`a} ce que doit {\^e}tre un r{\'e}sum{\'e}, et que le corpus n{'}est donc pas adapt{\'e} {\`a} la t{\^a}che de r{\'e}sum{\'e} automatique."
}

Download as File

<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="bachey-etal-2025-etude">
    <titleInfo>
        <title>Étude critique du corpus CNN/DailyMail pour le résumé automatique</title>
    </titleInfo>
    <name type="personal">
        <namePart type="given">Fanny</namePart>
        <namePart type="family">Bachey</namePart>
        <role>
            <roleTerm authority="marcrelator" type="text">author</roleTerm>
        </role>
    </name>
    <name type="personal">
        <namePart type="given">Christophe</namePart>
        <namePart type="family">Rodrigues</namePart>
        <role>
            <roleTerm authority="marcrelator" type="text">author</roleTerm>
        </role>
    </name>
    <name type="personal">
        <namePart type="given">Aurélien</namePart>
        <namePart type="family">Bossard</namePart>
        <role>
            <roleTerm authority="marcrelator" type="text">author</roleTerm>
        </role>
    </name>
    <originInfo>
        <dateIssued>2025-06</dateIssued>
    </originInfo>
    <typeOfResource>text</typeOfResource>
    <language>
        <languageTerm type="text">fra</languageTerm>
    </language>
    <relatedItem type="host">
        <titleInfo>
            <title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux</title>
        </titleInfo>
        <name type="personal">
            <namePart type="given">Frédéric</namePart>
            <namePart type="family">Bechet</namePart>
            <role>
                <roleTerm authority="marcrelator" type="text">editor</roleTerm>
            </role>
        </name>
        <name type="personal">
            <namePart type="given">Adrian-Gabriel</namePart>
            <namePart type="family">Chifu</namePart>
            <role>
                <roleTerm authority="marcrelator" type="text">editor</roleTerm>
            </role>
        </name>
        <name type="personal">
            <namePart type="given">Karen</namePart>
            <namePart type="family">Pinel-sauvagnat</namePart>
            <role>
                <roleTerm authority="marcrelator" type="text">editor</roleTerm>
            </role>
        </name>
        <name type="personal">
            <namePart type="given">Benoit</namePart>
            <namePart type="family">Favre</namePart>
            <role>
                <roleTerm authority="marcrelator" type="text">editor</roleTerm>
            </role>
        </name>
        <name type="personal">
            <namePart type="given">Eliot</namePart>
            <namePart type="family">Maes</namePart>
            <role>
                <roleTerm authority="marcrelator" type="text">editor</roleTerm>
            </role>
        </name>
        <name type="personal">
            <namePart type="given">Diana</namePart>
            <namePart type="family">Nurbakova</namePart>
            <role>
                <roleTerm authority="marcrelator" type="text">editor</roleTerm>
            </role>
        </name>
        <originInfo>
            <publisher>ATALA \textbackslash\textbackslash&amp; ARIA</publisher>
            <place>
                <placeTerm type="text">Marseille, France</placeTerm>
            </place>
        </originInfo>
        <genre authority="marcgt">conference publication</genre>
    </relatedItem>
    <abstract>De nombreux modèles de génération et d’évaluation sont entraînés sur des corpus sans qu’il ait été démontré qu’ils étaient appropriés pour cette tâche. C’est pourquoi nous proposons l’étude critique des données de l’un des corpus les plus utilisés dans le domaine du résumé automatique : CNN/DailyMail. Nous montrons, par une analyse théorique, puis en comparant les résumés de référence du corpus et à des résumés écrits par des humains, que les résumés de référence de CNN/DailyMail ne correspondent pas à ce que doit être un résumé, et que le corpus n’est donc pas adapté à la tâche de résumé automatique.</abstract>
    <identifier type="citekey">bachey-etal-2025-etude</identifier>
    <location>
        <url>https://aclanthology.org/2025.jeptalnrecital-taln.21/</url>
    </location>
    <part>
        <date>2025-6</date>
        <extent unit="page">
            <start>348</start>
            <end>359</end>
        </extent>
    </part>
</mods>
</modsCollection>

Download as File

%0 Conference Proceedings
%T Étude critique du corpus CNN/DailyMail pour le résumé automatique
%A Bachey, Fanny
%A Rodrigues, Christophe
%A Bossard, Aurélien
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F bachey-etal-2025-etude
%X De nombreux modèles de génération et d’évaluation sont entraînés sur des corpus sans qu’il ait été démontré qu’ils étaient appropriés pour cette tâche. C’est pourquoi nous proposons l’étude critique des données de l’un des corpus les plus utilisés dans le domaine du résumé automatique : CNN/DailyMail. Nous montrons, par une analyse théorique, puis en comparant les résumés de référence du corpus et à des résumés écrits par des humains, que les résumés de référence de CNN/DailyMail ne correspondent pas à ce que doit être un résumé, et que le corpus n’est donc pas adapté à la tâche de résumé automatique.
%U https://aclanthology.org/2025.jeptalnrecital-taln.21/
%P 348-359

Download as File

Markdown (Informal)

[Étude critique du corpus CNN/DailyMail pour le résumé automatique](https://aclanthology.org/2025.jeptalnrecital-taln.21/) (Bachey et al., JEP/TALN/RECITAL 2025)

Étude critique du corpus CNN/DailyMail pour le résumé automatique (Bachey et al., JEP/TALN/RECITAL 2025)

ACL

Fanny Bachey, Christophe Rodrigues, and Aurélien Bossard. 2025. Étude critique du corpus CNN/DailyMail pour le résumé automatique. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux, pages 348–359, Marseille, France. ATALA \\& ARIA.