Remplacement de mentions pour l’adaptation d’un corpus de reconnaissance d’entités nommées à un domaine cible (Mention replacement for adapting a named entity recognition dataset to a target domain)

Arthur Amalvy, Vincent Labatut, Richard Dufour


Abstract
La reconnaissance d’entités nommées est une tâche de traitement automatique du langage naturel bien étudiée et utile dans de nombreuses applications. Dernièrement, les modèles neuronaux permettent de la résoudre avec de très bonnes performances. Cependant, les jeux de données permettant l’entraînement et l’évaluation de ces modèles se concentrent sur un nombre restreint de domaines et types de documents (articles journalistiques, internet). Or, les performances d’un modèle entraîné sur un domaine ciblé sont en général moindres dans un autre : ceux moins couverts sont donc pénalisés. Pour tenter de remédier à ce problème, cet article propose d’utiliser une technique d’augmentation de données permettant d’adapter un corpus annoté en entités nommées d’un domaine source à un domaine cible où les types de noms rencontrés peuvent être différents. Nous l’appliquons dans le cadre de la littérature de fantasy, où nous montrons qu’elle peut apporter des gains de performance.
Anthology ID:
2022.jeptalnrecital-taln.19
Volume:
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Month:
6
Year:
2022
Address:
Avignon, France
Editors:
Yannick Estève, Tania Jiménez, Titouan Parcollet, Marcely Zanon Boito
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
198–205
Language:
French
URL:
https://aclanthology.org/2022.jeptalnrecital-taln.19
DOI:
Bibkey:
Cite (ACL):
Arthur Amalvy, Vincent Labatut, and Richard Dufour. 2022. Remplacement de mentions pour l’adaptation d’un corpus de reconnaissance d’entités nommées à un domaine cible (Mention replacement for adapting a named entity recognition dataset to a target domain). In Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale, pages 198–205, Avignon, France. ATALA.
Cite (Informal):
Remplacement de mentions pour l’adaptation d’un corpus de reconnaissance d’entités nommées à un domaine cible (Mention replacement for adapting a named entity recognition dataset to a target domain) (Amalvy et al., JEP/TALN/RECITAL 2022)
Copy Citation:
PDF:
https://aclanthology.org/2022.jeptalnrecital-taln.19.pdf
Data
CoNLL 2003