Détection des mots non-standards dans les tweets avec des réseaux de neurones (Detecting non-standard words in tweets with neural networks)

Tian Tian, Isabelle Tellier, Marco Dinarelli, Pedro Cardoso


Abstract
Dans cet article, nous proposons un modèle pour détecter dans les textes générés par des utilisateurs (en particulier les tweets), les mots non-standards à corriger. Nous utilisons pour cela des réseaux de neurones convolutifs au niveau des caractères, associés à des “plongements” (embeddings) des mots présents dans le contexte du mot courant. Nous avons utilisé pour l’évaluation trois corpus de référence. Nous avons testé différents modèles qui varient suivant leurs plongements pré-entrainés, leurs configurations et leurs optimisations. Nous avons finalement obtenu une F1-mesure de 0.972 en validation croisée pour la classe des mots non-standards. Cette détection des mots à corriger est l’étape préliminaire pour la normalisation des textes non standards comme les tweets.
Anthology ID:
2017.jeptalnrecital-court.22
Volume:
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts
Month:
6
Year:
2017
Address:
Orléans, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
174–182
Language:
French
URL:
https://aclanthology.org/2017.jeptalnrecital-court.22
DOI:
Bibkey:
Cite (ACL):
Tian Tian, Isabelle Tellier, Marco Dinarelli, and Pedro Cardoso. 2017. Détection des mots non-standards dans les tweets avec des réseaux de neurones (Detecting non-standard words in tweets with neural networks). In Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts, pages 174–182, Orléans, France. ATALA.
Cite (Informal):
Détection des mots non-standards dans les tweets avec des réseaux de neurones (Detecting non-standard words in tweets with neural networks) (Tian et al., JEP/TALN/RECITAL 2017)
Copy Citation:
PDF:
https://aclanthology.org/2017.jeptalnrecital-court.22.pdf