@inproceedings{wisniewski-etal-2010-recueil,
title = "Recueil et analyse d{'}un corpus {\'e}cologique de corrections orthographiques extrait des r{\'e}visions de Wikip{\'e}dia",
author = "Wisniewski, Guillaume and
Max, Aur{\'e}lien and
Yvon, Fran{\c{c}}ois",
editor = "Langlais, Philippe and
Gagnon, Michel",
booktitle = "Actes de la 17e conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Articles longs",
month = jul,
year = "2010",
address = "Montr{\'e}al, Canada",
publisher = "ATALA",
url = "https://aclanthology.org/2010.jeptalnrecital-long.13",
pages = "121--130",
abstract = "Dans cet article, nous introduisons une m{\'e}thode {\`a} base de r{\`e}gles permettant d{'}extraire automatiquement de l{'}historique des {\'e}ditions de l{'}encyclop{\'e}die collaborative Wikip{\'e}dia des corrections orthographiques. Cette m{\'e}thode nous a permis de construire un corpus d{'}erreurs compos{\'e} de 72 483 erreurs lexicales (non-word errors) et 74 100 erreurs grammaticales (real-word errors). Il n{'}existe pas, {\`a} notre connaissance, de plus gros corpus d{'}erreurs {\'e}cologiques librement disponible. En outre, les techniques mises en oeuvre peuvent {\^e}tre facilement transpos{\'e}es {\`a} de nombreuses autres langues. La collecte de ce corpus ouvre de nouvelles perspectives pour l{'}{\'e}tude des erreurs fr{\'e}quentes ainsi que l{'}apprentissage et l{'}{\'e}valuation des correcteurs orthographiques automatiques. Plusieurs exp{\'e}riences illustrant son int{\'e}r{\^e}t sont propos{\'e}es.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="wisniewski-etal-2010-recueil">
<titleInfo>
<title>Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia</title>
</titleInfo>
<name type="personal">
<namePart type="given">Guillaume</namePart>
<namePart type="family">Wisniewski</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Aurélien</namePart>
<namePart type="family">Max</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">François</namePart>
<namePart type="family">Yvon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2010-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Philippe</namePart>
<namePart type="family">Langlais</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Michel</namePart>
<namePart type="family">Gagnon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Montréal, Canada</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Dans cet article, nous introduisons une méthode à base de règles permettant d’extraire automatiquement de l’historique des éditions de l’encyclopédie collaborative Wikipédia des corrections orthographiques. Cette méthode nous a permis de construire un corpus d’erreurs composé de 72 483 erreurs lexicales (non-word errors) et 74 100 erreurs grammaticales (real-word errors). Il n’existe pas, à notre connaissance, de plus gros corpus d’erreurs écologiques librement disponible. En outre, les techniques mises en oeuvre peuvent être facilement transposées à de nombreuses autres langues. La collecte de ce corpus ouvre de nouvelles perspectives pour l’étude des erreurs fréquentes ainsi que l’apprentissage et l’évaluation des correcteurs orthographiques automatiques. Plusieurs expériences illustrant son intérêt sont proposées.</abstract>
<identifier type="citekey">wisniewski-etal-2010-recueil</identifier>
<location>
<url>https://aclanthology.org/2010.jeptalnrecital-long.13</url>
</location>
<part>
<date>2010-07</date>
<extent unit="page">
<start>121</start>
<end>130</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia
%A Wisniewski, Guillaume
%A Max, Aurélien
%A Yvon, François
%Y Langlais, Philippe
%Y Gagnon, Michel
%S Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
%D 2010
%8 July
%I ATALA
%C Montréal, Canada
%G French
%F wisniewski-etal-2010-recueil
%X Dans cet article, nous introduisons une méthode à base de règles permettant d’extraire automatiquement de l’historique des éditions de l’encyclopédie collaborative Wikipédia des corrections orthographiques. Cette méthode nous a permis de construire un corpus d’erreurs composé de 72 483 erreurs lexicales (non-word errors) et 74 100 erreurs grammaticales (real-word errors). Il n’existe pas, à notre connaissance, de plus gros corpus d’erreurs écologiques librement disponible. En outre, les techniques mises en oeuvre peuvent être facilement transposées à de nombreuses autres langues. La collecte de ce corpus ouvre de nouvelles perspectives pour l’étude des erreurs fréquentes ainsi que l’apprentissage et l’évaluation des correcteurs orthographiques automatiques. Plusieurs expériences illustrant son intérêt sont proposées.
%U https://aclanthology.org/2010.jeptalnrecital-long.13
%P 121-130
Markdown (Informal)
[Recueil et analyse d’un corpus écologique de corrections orthographiques extrait des révisions de Wikipédia](https://aclanthology.org/2010.jeptalnrecital-long.13) (Wisniewski et al., JEP/TALN/RECITAL 2010)
ACL