TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue (TREMoLo : a Multi-Label Corpus of French Tweets for Language Register Characterization)

Jade Mekki, Delphine Battistelli, Nicolas Béchet, Gwénolé Lecorvé


Abstract
Des registres tels que familier, courant et soutenu sont un phénomène immédiatement perceptible par tout locuteur d’une langue. Ils restent encore peu étudiés en traitement des langues (TAL), en particulier en dehors de l’anglais. Cet article présente un large corpus de tweets en français annotés en registres de langue. L’annotation intègre des marqueurs propres à ce type de textes (tels que les émoticônes ou les hashtags) et habituellement évincés dans les travaux en TAL. À partir d’une graine annotée manuellement en proportion d’appartenance aux registres, un classifieur de type CamemBERT est appris et appliqué sur un large ensemble de tweets. Le corpus annoté en résultant compte 228 505 tweets pour un total de 6 millions de mots. Des premières analyses statistiques sont menées et permettent de conclure à la qualité du corpus présenté. Le corpus ainsi que son guide d’annotation sont mis à la disposition de la communauté scientifique.
Anthology ID:
2021.jeptalnrecital-taln.23
Volume:
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Month:
6
Year:
2021
Address:
Lille, France
Editors:
Pascal Denis, Natalia Grabar, Amel Fraisse, Rémi Cardon, Bernard Jacquemin, Eric Kergosien, Antonio Balvet
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
237–245
Language:
French
URL:
https://aclanthology.org/2021.jeptalnrecital-taln.23
DOI:
Bibkey:
Cite (ACL):
Jade Mekki, Delphine Battistelli, Nicolas Béchet, and Gwénolé Lecorvé. 2021. TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue (TREMoLo : a Multi-Label Corpus of French Tweets for Language Register Characterization). In Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale, pages 237–245, Lille, France. ATALA.
Cite (Informal):
TREMoLo : un corpus multi-étiquettes de tweets en français pour la caractérisation des registres de langue (TREMoLo : a Multi-Label Corpus of French Tweets for Language Register Characterization) (Mekki et al., JEP/TALN/RECITAL 2021)
Copy Citation:
PDF:
https://aclanthology.org/2021.jeptalnrecital-taln.23.pdf
Data
GYAFC