astroECR : enrichissement d’un corpus astrophysique en entités nommées, coréférences et relations sémantiques

Atilla Kaan Alkan, Felix Grezes, Cyril Grouin, Fabian Schüssler, Pierre Zweigenbaum


Abstract
Le manque de ressources annotées constitue un défi majeur pour le traitement automatique de la langue en astrophysique. Afin de combler cette lacune, nous présentons astroECR, une extension du corpus TDAC (Time-Domain Astrophysics Corpus). Notre corpus, constitué de 300 rapports d’observation en anglais, étend le schéma d’annotation initial de TDAC en introduisant cinq classes d’entités nommées supplémentaires spécifiques à l’astrophysique. Nous avons enrichi les annotations en incluant les coréférences, les relations sémantiques entre les objets célestes et leurs propriétés physiques, ainsi qu’en normalisant les noms d’objets célestes via des bases de données astronomiques. L’utilité de notre corpus est démontrée en fournissant des scores de référence à travers quatre tâches~: la reconnaissance d’entités nommées, la résolution de coréférences, la détection de relations, et la normalisation des noms d’objets célestes. Nous mettons à disposition le corpus ainsi que son guide d’annotation, les codes sources, et les modèles associés.
Anthology ID:
2024.jeptalnrecital-taln.48
Volume:
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
720–733
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-taln.48
DOI:
Bibkey:
Cite (ACL):
Atilla Kaan Alkan, Felix Grezes, Cyril Grouin, Fabian Schüssler, and Pierre Zweigenbaum. 2024. astroECR : enrichissement d’un corpus astrophysique en entités nommées, coréférences et relations sémantiques. In Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position, pages 720–733, Toulouse, France. ATALA and AFPC.
Cite (Informal):
astroECR : enrichissement d’un corpus astrophysique en entités nommées, coréférences et relations sémantiques (Kaan Alkan et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.jeptalnrecital-taln.48.pdf