@inproceedings{lejeune-etal-2015-evaluation,
title = "{\'E}valuation intrins{\`e}que et extrins{\`e}que du nettoyage de pages Web",
author = {Lejeune, Ga{\"e}l and
Brixtel, Romain and
Lecluze, Charlotte},
editor = "Lecarpentier, Jean-Marc and
Lucas, Nadine",
booktitle = "Actes de la 22e conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles courts",
month = jun,
year = "2015",
address = "Caen, France",
publisher = "ATALA",
url = "https://aclanthology.org/2015.jeptalnrecital-court.15",
pages = "95--101",
abstract = "Le nettoyage de documents issus du web est une t{\^a}che importante pour le TAL en g{\'e}n{\'e}ral et pour la constitution de corpus en particulier. Cette phase est peu trait{\'e}e dans la litt{\'e}rature, pourtant elle n{'}est pas sans influence sur la qualit{\'e} des informations extraites des corpus. Nous proposons deux types d{'}{\'e}valuation de cette t{\^a}che de d{\'e}tourage : (I) une {\'e}valuation intrins{\`e}que fond{\'e}e sur le contenu en mots, balises et caract{\`e}res ; (II) une {\'e}valuation extrins{\`e}que fond{\'e}e sur la t{\^a}che, en examinant l{'}effet du d{\'e}tourage des documents sur le syst{\`e}me plac{\'e} en aval de la cha{\^\i}ne de traitement. Nous montrons que les r{\'e}sultats ne sont pas coh{\'e}rents entre ces deux {\'e}valuations ainsi qu{'}entre les diff{\'e}rentes langues. Ainsi, le choix d{'}un outil de d{\'e}tourage devrait {\^e}tre guid{\'e} par la t{\^a}che vis{\'e}e plut{\^o}t que par la simple {\'e}valuation intrins{\`e}que.",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="lejeune-etal-2015-evaluation">
<titleInfo>
<title>Évaluation intrinsèque et extrinsèque du nettoyage de pages Web</title>
</titleInfo>
<name type="personal">
<namePart type="given">Gaël</namePart>
<namePart type="family">Lejeune</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Romain</namePart>
<namePart type="family">Brixtel</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Charlotte</namePart>
<namePart type="family">Lecluze</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2015-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts</title>
</titleInfo>
<name type="personal">
<namePart type="given">Jean-Marc</namePart>
<namePart type="family">Lecarpentier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nadine</namePart>
<namePart type="family">Lucas</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Caen, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Le nettoyage de documents issus du web est une tâche importante pour le TAL en général et pour la constitution de corpus en particulier. Cette phase est peu traitée dans la littérature, pourtant elle n’est pas sans influence sur la qualité des informations extraites des corpus. Nous proposons deux types d’évaluation de cette tâche de détourage : (I) une évaluation intrinsèque fondée sur le contenu en mots, balises et caractères ; (II) une évaluation extrinsèque fondée sur la tâche, en examinant l’effet du détourage des documents sur le système placé en aval de la chaîne de traitement. Nous montrons que les résultats ne sont pas cohérents entre ces deux évaluations ainsi qu’entre les différentes langues. Ainsi, le choix d’un outil de détourage devrait être guidé par la tâche visée plutôt que par la simple évaluation intrinsèque.</abstract>
<identifier type="citekey">lejeune-etal-2015-evaluation</identifier>
<location>
<url>https://aclanthology.org/2015.jeptalnrecital-court.15</url>
</location>
<part>
<date>2015-06</date>
<extent unit="page">
<start>95</start>
<end>101</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Évaluation intrinsèque et extrinsèque du nettoyage de pages Web
%A Lejeune, Gaël
%A Brixtel, Romain
%A Lecluze, Charlotte
%Y Lecarpentier, Jean-Marc
%Y Lucas, Nadine
%S Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
%D 2015
%8 June
%I ATALA
%C Caen, France
%F lejeune-etal-2015-evaluation
%X Le nettoyage de documents issus du web est une tâche importante pour le TAL en général et pour la constitution de corpus en particulier. Cette phase est peu traitée dans la littérature, pourtant elle n’est pas sans influence sur la qualité des informations extraites des corpus. Nous proposons deux types d’évaluation de cette tâche de détourage : (I) une évaluation intrinsèque fondée sur le contenu en mots, balises et caractères ; (II) une évaluation extrinsèque fondée sur la tâche, en examinant l’effet du détourage des documents sur le système placé en aval de la chaîne de traitement. Nous montrons que les résultats ne sont pas cohérents entre ces deux évaluations ainsi qu’entre les différentes langues. Ainsi, le choix d’un outil de détourage devrait être guidé par la tâche visée plutôt que par la simple évaluation intrinsèque.
%U https://aclanthology.org/2015.jeptalnrecital-court.15
%P 95-101
Markdown (Informal)
[Évaluation intrinsèque et extrinsèque du nettoyage de pages Web](https://aclanthology.org/2015.jeptalnrecital-court.15) (Lejeune et al., JEP/TALN/RECITAL 2015)
ACL