Etiquetage morpho-syntaxique de tweets avec des CRF

Tian Tian, Dinarelli Marco, Tellier Isabelle, Cardoso Pedro


Abstract
Nous nous intéressons dans cet article à l’apprentissage automatique d’un étiqueteur mopho-syntaxique pour les tweets en anglais. Nous proposons tout d’abord un jeu d’étiquettes réduit avec 17 étiquettes différentes, qui permet d’obtenir de meilleures performances en exactitude par rapport au jeu d’étiquettes traditionnel qui contient 45 étiquettes. Comme nous disposons de peu de tweets étiquetés, nous essayons ensuite de compenser ce handicap en ajoutant dans l’ensemble d’apprentissage des données issues de textes bien formés. Les modèles mixtes obtenus permettent d’améliorer les résultats par rapport aux modèles appris avec un seul corpus, qu’il soit issu de Twitter ou de textes journalistiques.
Anthology ID:
2015.jeptalnrecital-court.43
Volume:
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
June
Year:
2015
Address:
Caen, France
Editors:
Jean-Marc Lecarpentier, Nadine Lucas
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
291–297
Language:
URL:
https://aclanthology.org/2015.jeptalnrecital-court.43
DOI:
Bibkey:
Cite (ACL):
Tian Tian, Dinarelli Marco, Tellier Isabelle, and Cardoso Pedro. 2015. Etiquetage morpho-syntaxique de tweets avec des CRF. In Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 291–297, Caen, France. ATALA.
Cite (Informal):
Etiquetage morpho-syntaxique de tweets avec des CRF (Tian et al., JEP/TALN/RECITAL 2015)
Copy Citation:
PDF:
https://aclanthology.org/2015.jeptalnrecital-court.43.pdf