Augmentation des modèles de langage français par graphes de connaissances pour la reconnaissance des entités biomédicales

Aidan Mannion, Schwab Didier, Lorraine Goeuriot, Thierry Chevalier


Abstract
Des travaux récents dans le domaine du traitement du langage naturel ont démontré l’efficacité des modèles de langage pré-entraînés pour une grande variété d’applications générales. Les modèles de langage à grande échelle acquièrent généralement ces capacités en modélisant la distribution statistique des mots par un apprentissage auto-supervisé sur de grandes quantités de texte. Toutefois, pour les domaines spécialisés à faibles ressources, tels que le traitement de documents cliniques, en particulier dans des langues autres que l’anglais, la nécessité d’intégrer des connaissances structurées reste d’une grande importance. Cet article se concentre sur l’une de ces applications spécialisées de la modélisation du langage à partir de ressources limitées : l’extraction d’informations à partir de documents biomédicaux et cliniques en français. En particulier, nous montrons qu’en complétant le pré-entraînement en mots masqués des réseaux neuronaux transformer par des objectifs de prédiction extraits d’une base de connaissances biomédicales, leurs performances sur deux tâches différentes de reconnaissance d’entités nommées en français peuvent être augmentées.
Anthology ID:
2023.jeptalnrecital-long.14
Volume:
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs
Month:
6
Year:
2023
Address:
Paris, France
Editors:
Christophe Servan, Anne Vilnat
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
177–189
Language:
French
URL:
https://aclanthology.org/2023.jeptalnrecital-long.14
DOI:
Bibkey:
Cite (ACL):
Aidan Mannion, Schwab Didier, Lorraine Goeuriot, and Thierry Chevalier. 2023. Augmentation des modèles de langage français par graphes de connaissances pour la reconnaissance des entités biomédicales. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs, pages 177–189, Paris, France. ATALA.
Cite (Informal):
Augmentation des modèles de langage français par graphes de connaissances pour la reconnaissance des entités biomédicales (Mannion et al., JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:
https://aclanthology.org/2023.jeptalnrecital-long.14.pdf