@inproceedings{lecorve-etal-2018-construction,
title = "Construction conjointe d{'}un corpus et d{'}un classifieur pour les registres de langue en fran{\c{c}}ais (Joint building of a corpus and a classifier for language registers in {F}rench)",
author = "Lecorv{\'e}, Gw{\'e}nol{\'e} and
Ayats, Hugo and
Beno{\^\i}t, Fournier and
Mekki, Jade and
Chevelu, Jonathan and
Battistelli, Delphine and
B{\'e}chet, Nicolas",
editor = "S{\'e}billot, Pascale and
Claveau, Vincent",
booktitle = "Actes de la Conf{\'e}rence TALN. Volume 1 - Articles longs, articles courts de TALN",
month = "5",
year = "2018",
address = "Rennes, France",
publisher = "ATALA",
url = "https://aclanthology.org/2018.jeptalnrecital-long.11",
pages = "143--156",
abstract = "Les registres de langue sont un trait stylistique marquant dans l{'}appr{\'e}ciation d{'}un texte ou d{'}un discours. Cependant, il sont encore peu {\'e}tudi{\'e}s en traitement automatique des langues. Dans cet article, nous pr{\'e}sentons une approche semi-supervis{\'e}e permettant la construction conjointe d{'}un corpus de textes {\'e}tiquet{\'e}s en registres et d{'}un classifieur associ{\'e}. Cette approche s{'}appuie sur un ensemble initial et restreint de donn{\'e}es expertes. Via une collecte automatique et massive de pages web, l{'}approche proc{\`e}de par it{\'e}rations en alternant l{'}apprentissage d{'}un classifieur interm{\'e}diaire et l{'}annotation de nouveaux textes pour augmenter le corpus {\'e}tiquet{\'e}. Nous appliquons cette approche aux registres familier, courant et soutenu. {\`A} l{'}issue du processus de construction, le corpus {\'e}tiquet{\'e} regroupe 800 000 textes et le classifieur, un r{\'e}seau de neurones, pr{\'e}sente un taux de bonne classification de 87 {\%}.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="lecorve-etal-2018-construction">
<titleInfo>
<title>Construction conjointe d’un corpus et d’un classifieur pour les registres de langue en français (Joint building of a corpus and a classifier for language registers in French)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Gwénolé</namePart>
<namePart type="family">Lecorvé</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Hugo</namePart>
<namePart type="family">Ayats</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Fournier</namePart>
<namePart type="family">Benoît</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jade</namePart>
<namePart type="family">Mekki</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jonathan</namePart>
<namePart type="family">Chevelu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Delphine</namePart>
<namePart type="family">Battistelli</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nicolas</namePart>
<namePart type="family">Béchet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2018-05</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN</title>
</titleInfo>
<name type="personal">
<namePart type="given">Pascale</namePart>
<namePart type="family">Sébillot</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Vincent</namePart>
<namePart type="family">Claveau</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Rennes, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les registres de langue sont un trait stylistique marquant dans l’appréciation d’un texte ou d’un discours. Cependant, il sont encore peu étudiés en traitement automatique des langues. Dans cet article, nous présentons une approche semi-supervisée permettant la construction conjointe d’un corpus de textes étiquetés en registres et d’un classifieur associé. Cette approche s’appuie sur un ensemble initial et restreint de données expertes. Via une collecte automatique et massive de pages web, l’approche procède par itérations en alternant l’apprentissage d’un classifieur intermédiaire et l’annotation de nouveaux textes pour augmenter le corpus étiqueté. Nous appliquons cette approche aux registres familier, courant et soutenu. À l’issue du processus de construction, le corpus étiqueté regroupe 800 000 textes et le classifieur, un réseau de neurones, présente un taux de bonne classification de 87 %.</abstract>
<identifier type="citekey">lecorve-etal-2018-construction</identifier>
<location>
<url>https://aclanthology.org/2018.jeptalnrecital-long.11</url>
</location>
<part>
<date>2018-5</date>
<extent unit="page">
<start>143</start>
<end>156</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Construction conjointe d’un corpus et d’un classifieur pour les registres de langue en français (Joint building of a corpus and a classifier for language registers in French)
%A Lecorvé, Gwénolé
%A Ayats, Hugo
%A Benoît, Fournier
%A Mekki, Jade
%A Chevelu, Jonathan
%A Battistelli, Delphine
%A Béchet, Nicolas
%Y Sébillot, Pascale
%Y Claveau, Vincent
%S Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
%D 2018
%8 May
%I ATALA
%C Rennes, France
%G French
%F lecorve-etal-2018-construction
%X Les registres de langue sont un trait stylistique marquant dans l’appréciation d’un texte ou d’un discours. Cependant, il sont encore peu étudiés en traitement automatique des langues. Dans cet article, nous présentons une approche semi-supervisée permettant la construction conjointe d’un corpus de textes étiquetés en registres et d’un classifieur associé. Cette approche s’appuie sur un ensemble initial et restreint de données expertes. Via une collecte automatique et massive de pages web, l’approche procède par itérations en alternant l’apprentissage d’un classifieur intermédiaire et l’annotation de nouveaux textes pour augmenter le corpus étiqueté. Nous appliquons cette approche aux registres familier, courant et soutenu. À l’issue du processus de construction, le corpus étiqueté regroupe 800 000 textes et le classifieur, un réseau de neurones, présente un taux de bonne classification de 87 %.
%U https://aclanthology.org/2018.jeptalnrecital-long.11
%P 143-156
Markdown (Informal)
[Construction conjointe d’un corpus et d’un classifieur pour les registres de langue en français (Joint building of a corpus and a classifier for language registers in French)](https://aclanthology.org/2018.jeptalnrecital-long.11) (Lecorvé et al., JEP/TALN/RECITAL 2018)
ACL
- Gwénolé Lecorvé, Hugo Ayats, Fournier Benoît, Jade Mekki, Jonathan Chevelu, Delphine Battistelli, and Nicolas Béchet. 2018. Construction conjointe d’un corpus et d’un classifieur pour les registres de langue en français (Joint building of a corpus and a classifier for language registers in French). In Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN, pages 143–156, Rennes, France. ATALA.