@inproceedings{mekki-etal-2021-tremolo,
title = "{TREM}o{L}o : un corpus multi-{\'e}tiquettes de tweets en fran{\c{c}}ais pour la caract{\'e}risation des registres de langue ({TREM}o{L}o : a Multi-Label Corpus of {F}rench Tweets for Language Register Characterization)",
author = "Mekki, Jade and
Battistelli, Delphine and
B{\'e}chet, Nicolas and
Lecorv{\'e}, Gw{\'e}nol{\'e}",
editor = "Denis, Pascal and
Grabar, Natalia and
Fraisse, Amel and
Cardon, R{\'e}mi and
Jacquemin, Bernard and
Kergosien, Eric and
Balvet, Antonio",
booktitle = "Actes de la 28e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conf{\'e}rence principale",
month = "6",
year = "2021",
address = "Lille, France",
publisher = "ATALA",
url = "https://aclanthology.org/2021.jeptalnrecital-taln.23",
pages = "237--245",
abstract = "Des registres tels que familier, courant et soutenu sont un ph{\'e}nom{\`e}ne imm{\'e}diatement perceptible par tout locuteur d{'}une langue. Ils restent encore peu {\'e}tudi{\'e}s en traitement des langues (TAL), en particulier en dehors de l{'}anglais. Cet article pr{\'e}sente un large corpus de tweets en fran{\c{c}}ais annot{\'e}s en registres de langue. L{'}annotation int{\`e}gre des marqueurs propres {\`a} ce type de textes (tels que les {\'e}motic{\^o}nes ou les hashtags) et habituellement {\'e}vinc{\'e}s dans les travaux en TAL. {\`A} partir d{'}une graine annot{\'e}e manuellement en proportion d{'}appartenance aux registres, un classifieur de type CamemBERT est appris et appliqu{\'e} sur un large ensemble de tweets. Le corpus annot{\'e} en r{\'e}sultant compte 228 505 tweets pour un total de 6 millions de mots. Des premi{\`e}res analyses statistiques sont men{\'e}es et permettent de conclure {\`a} la qualit{\'e} du corpus pr{\'e}sent{\'e}. Le corpus ainsi que son guide d{'}annotation sont mis {\`a} la disposition de la communaut{\'e} scientifique.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="mekki-etal-2021-tremolo">
<titleInfo>
<title>TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue (TREMoLo : a Multi-Label Corpus of French Tweets for Language Register Characterization)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Jade</namePart>
<namePart type="family">Mekki</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Delphine</namePart>
<namePart type="family">Battistelli</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nicolas</namePart>
<namePart type="family">Béchet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Gwénolé</namePart>
<namePart type="family">Lecorvé</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2021-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale</title>
</titleInfo>
<name type="personal">
<namePart type="given">Pascal</namePart>
<namePart type="family">Denis</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Natalia</namePart>
<namePart type="family">Grabar</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Amel</namePart>
<namePart type="family">Fraisse</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Rémi</namePart>
<namePart type="family">Cardon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Bernard</namePart>
<namePart type="family">Jacquemin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eric</namePart>
<namePart type="family">Kergosien</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Antonio</namePart>
<namePart type="family">Balvet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Lille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Des registres tels que familier, courant et soutenu sont un phénomène immédiatement perceptible par tout locuteur d’une langue. Ils restent encore peu étudiés en traitement des langues (TAL), en particulier en dehors de l’anglais. Cet article présente un large corpus de tweets en français annotés en registres de langue. L’annotation intègre des marqueurs propres à ce type de textes (tels que les émoticônes ou les hashtags) et habituellement évincés dans les travaux en TAL. À partir d’une graine annotée manuellement en proportion d’appartenance aux registres, un classifieur de type CamemBERT est appris et appliqué sur un large ensemble de tweets. Le corpus annoté en résultant compte 228 505 tweets pour un total de 6 millions de mots. Des premières analyses statistiques sont menées et permettent de conclure à la qualité du corpus présenté. Le corpus ainsi que son guide d’annotation sont mis à la disposition de la communauté scientifique.</abstract>
<identifier type="citekey">mekki-etal-2021-tremolo</identifier>
<location>
<url>https://aclanthology.org/2021.jeptalnrecital-taln.23</url>
</location>
<part>
<date>2021-6</date>
<extent unit="page">
<start>237</start>
<end>245</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue (TREMoLo : a Multi-Label Corpus of French Tweets for Language Register Characterization)
%A Mekki, Jade
%A Battistelli, Delphine
%A Béchet, Nicolas
%A Lecorvé, Gwénolé
%Y Denis, Pascal
%Y Grabar, Natalia
%Y Fraisse, Amel
%Y Cardon, Rémi
%Y Jacquemin, Bernard
%Y Kergosien, Eric
%Y Balvet, Antonio
%S Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
%D 2021
%8 June
%I ATALA
%C Lille, France
%G French
%F mekki-etal-2021-tremolo
%X Des registres tels que familier, courant et soutenu sont un phénomène immédiatement perceptible par tout locuteur d’une langue. Ils restent encore peu étudiés en traitement des langues (TAL), en particulier en dehors de l’anglais. Cet article présente un large corpus de tweets en français annotés en registres de langue. L’annotation intègre des marqueurs propres à ce type de textes (tels que les émoticônes ou les hashtags) et habituellement évincés dans les travaux en TAL. À partir d’une graine annotée manuellement en proportion d’appartenance aux registres, un classifieur de type CamemBERT est appris et appliqué sur un large ensemble de tweets. Le corpus annoté en résultant compte 228 505 tweets pour un total de 6 millions de mots. Des premières analyses statistiques sont menées et permettent de conclure à la qualité du corpus présenté. Le corpus ainsi que son guide d’annotation sont mis à la disposition de la communauté scientifique.
%U https://aclanthology.org/2021.jeptalnrecital-taln.23
%P 237-245
Markdown (Informal)
[TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue (TREMoLo : a Multi-Label Corpus of French Tweets for Language Register Characterization)](https://aclanthology.org/2021.jeptalnrecital-taln.23) (Mekki et al., JEP/TALN/RECITAL 2021)
ACL