Un corpus libre, évolutif et versionné en entités nommées du Français (A free, evolving and versioned french named entity recognition corpus)

Yoann Dupont


Abstract
Les corpus annotés sont des ressources difficiles à créer en raison du grand effort humain qu’elles impliquent. Une fois rendues disponibles, elles sont difficilement modifiables et tendent à ne pas évoluer pas dans le temps. Dans cet article, nous présentons un corpus annoté pour la reconnaissance des entités nommées libre et évolutif en utilisant les textes d’articles Wikinews français de 2016 à 2018, pour un total de 1191 articles annotés. Nous décrivons succinctement le guide d’annotation avant de situer notre corpus par rapport à d’autres corpus déjà existants. Nous donnerons également un accord intra-annotateur afin de donner un indice de stabilité des annotations ainsi que le processus global pour poursuivre les travaux d’enrichissement du corpus.
Anthology ID:
2019.jeptalnrecital-court.30
Volume:
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts
Month:
7
Year:
2019
Address:
Toulouse, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
437–446
Language:
French
URL:
https://aclanthology.org/2019.jeptalnrecital-court.30
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2019.jeptalnrecital-court.30.pdf