DWIE-FR : Un nouveau jeu de données en français annoté en entités nommées

Sylvain Verdy, Maxime Prieur, Guillaume Gadek, Cédric Lopez


Abstract
Ces dernières années, les contributions majeures qui ont eu lieu en apprentissage automatique supervisé ont mis en evidence la nécessité de disposer de grands jeux de données annotés de haute qualité. Les recherches menées sur la tâche de reconnaissance d’entités nommées dans des textes en français font face à l’absence de jeux de données annotés “à grande échelle” et avec de nombreuses classes d’entités hiérarchisées. Dans cet article, nous proposons une approche pour obtenir un tel jeu de données qui s’appuie sur des étapes de traduction puis d’annotation des données textuelles en anglais vers une langue cible (ici au français). Nous évaluons la qualité de l’approche proposée et mesurons les performances de quelques modèles d’apprentissage automatique sur ces données.
Anthology ID:
2023.jeptalnrecital-short.7
Volume:
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : travaux de recherche originaux -- articles courts
Month:
6
Year:
2023
Address:
Paris, France
Editors:
Christophe Servan, Anne Vilnat
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
63–72
Language:
French
URL:
https://aclanthology.org/2023.jeptalnrecital-short.7
DOI:
Bibkey:
Cite (ACL):
Sylvain Verdy, Maxime Prieur, Guillaume Gadek, and Cédric Lopez. 2023. DWIE-FR : Un nouveau jeu de données en français annoté en entités nommées. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : travaux de recherche originaux -- articles courts, pages 63–72, Paris, France. ATALA.
Cite (Informal):
DWIE-FR : Un nouveau jeu de données en français annoté en entités nommées (Verdy et al., JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:
https://aclanthology.org/2023.jeptalnrecital-short.7.pdf