Étude comparative des plongements lexicaux pour l’extraction d’entités nommées en français

Danrun Cao, Nicolat Béchet, Pierre-François Marteau


Abstract
Dans ce papier nous présentons une étude comparative des méthodes de plongements lexicaux pour le français sur la tâche de Reconnaissance d’entités nommées (REN). L’objectif est de comparer la performance de chaque méthode sur la même tâche et sous les mêmes conditions de travail. Nous utilisons comme corpus d’étude la proportion française du corpus WikiNER. Il s’agit d’un corpus de 3,5 millions tokens avec 4 types d’entités. 10 types de plongements lexicaux sont étudiés, y compris les plongements non-contextuels, des contextuels et éventuellement ceux à base de transformer. Pour chaque plongement, nous entraînons un BiLSTM-CRF comme classifieur. Pour les modèles à base de transformer, nous comparons également leur performance sous un autre cas d’usage: fine-tuning.
Anthology ID:
2023.jeptalnrecital-long.8
Volume:
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs
Month:
6
Year:
2023
Address:
Paris, France
Editors:
Christophe Servan, Anne Vilnat
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
94–104
Language:
French
URL:
https://aclanthology.org/2023.jeptalnrecital-long.8
DOI:
Bibkey:
Cite (ACL):
Danrun Cao, Nicolat Béchet, and Pierre-François Marteau. 2023. Étude comparative des plongements lexicaux pour l’extraction d’entités nommées en français. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs, pages 94–104, Paris, France. ATALA.
Cite (Informal):
Étude comparative des plongements lexicaux pour l’extraction d’entités nommées en français (Cao et al., JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:
https://aclanthology.org/2023.jeptalnrecital-long.8.pdf