Curriculum d’apprentissage : reconnaissance d’entités nommées pour l’extraction de concepts sémantiques (Curriculum learning : named entity recognition for semantic concept extraction)

Antoine Caubrière, Natalia Tomashenko, Yannick Estève, Antoine Laurent, Emmanuel Morin


Abstract
Dans cet article, nous présentons une approche de bout en bout d’extraction de concepts sémantiques de la parole. En particulier, nous mettons en avant l’apport d’une chaîne d’apprentissage successif pilotée par une stratégie de curriculum d’apprentissage. Dans la chaîne d’apprentissage mise en place, nous exploitons des données françaises annotées en entités nommées que nous supposons être des concepts plus génériques que les concepts sémantiques liés à une application informatique spécifique. Dans cette étude, il s’agit d’extraire des concepts sémantiques dans le cadre de la tâche MEDIA. Pour renforcer le système proposé, nous exploitons aussi des stratégies d’augmentation de données, un modèle de langage 5-gramme, ainsi qu’un mode étoile aidant le système à se concentrer sur les concepts et leurs valeurs lors de l’apprentissage. Les résultats montrent un intérêt à l’utilisation des données d’entités nommées, permettant un gain relatif allant jusqu’à 6,5 %.
Anthology ID:
2019.jeptalnrecital-long.6
Volume:
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs
Month:
7
Year:
2019
Address:
Toulouse, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
85–98
Language:
French
URL:
https://aclanthology.org/2019.jeptalnrecital-long.6
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2019.jeptalnrecital-long.6.pdf