Étude de méthodes d’augmentation de données pour la reconnaissance d’entités nommées en astrophysique

Atilla Kaan Alkan; Cyril Grouin; Pierre Zweigenbaum

Étude de méthodes d’augmentation de données pour la reconnaissance d’entités nommées en astrophysique

Atilla Kaan Alkan, Cyril Grouin, Pierre Zweigenbaum

Abstract

Dans cet article nous étudions l’intérêt de l’augmentation de données pour le repérage d’entités nommées en domaine de spécialité : l’astrophysique. Pour cela, nous comparons trois méthodes d’augmentation en utilisant deux récents corpus annotés du domaine : DEAL et TDAC, tous deux en anglais. Nous avons générés les données artificielles en utilisant des méthodes à base de règles et à base de modèles de langue. Les données ont ensuite été ajoutées de manière itérative pour affiner un système de détection d’entités. Les résultats permettent de constater un effet de seuil : ajouter des données artificielles au-delà d’une certaine quantité ne présente plus d’intérêt et peut dégrader la F-mesure. Sur les deux corpus, le seuil varie selon la méthode employée, et en fonction du modèle de langue utilisé. Cette étude met également en évidence que l’augmentation de données est plus efficace sur de petits corpus, ce qui est cohérent avec d’autres études antérieures. En effet, nos expériences montrent qu’il est possible d’améliorer de 1 point la F-mesure sur le corpus DEAL, et jusqu’à 2 points sur le corpus TDAC.

Anthology ID:: 2023.jeptalnrecital-long.1
Volume:: Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs
Month:: 6
Year:: 2023
Address:: Paris, France
Editors:: Christophe Servan, Anne Vilnat
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA
Note:
Pages:: 1–13
Language:: French
URL:: https://aclanthology.org/2023.jeptalnrecital-long.1/
DOI:
Bibkey:
Cite (ACL):: Atilla Kaan Alkan, Cyril Grouin, and Pierre Zweigenbaum. 2023. Étude de méthodes d’augmentation de données pour la reconnaissance d’entités nommées en astrophysique. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs, pages 1–13, Paris, France. ATALA.
Cite (Informal):: Étude de méthodes d’augmentation de données pour la reconnaissance d’entités nommées en astrophysique (Alkan et al., JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:: https://aclanthology.org/2023.jeptalnrecital-long.1.pdf

PDF Cite Search Fix data