@inproceedings{mannion-etal-2023-augmentation,
title = "Augmentation des mod{\`e}les de langage fran{\c{c}}ais par graphes de connaissances pour la reconnaissance des entit{\'e}s biom{\'e}dicales",
author = "Mannion, Aidan and
Didier, Schwab and
Goeuriot, Lorraine and
Chevalier, Thierry",
editor = "Servan, Christophe and
Vilnat, Anne",
booktitle = "Actes de CORIA-TALN 2023. Actes de la 30e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-long.14",
pages = "177--189",
abstract = "Des travaux r{\'e}cents dans le domaine du traitement du langage naturel ont d{\'e}montr{\'e} l{'}efficacit{\'e} des mod{\`e}les de langage pr{\'e}-entra{\^\i}n{\'e}s pour une grande vari{\'e}t{\'e} d{'}applications g{\'e}n{\'e}rales. Les mod{\`e}les de langage {\`a} grande {\'e}chelle acqui{\`e}rent g{\'e}n{\'e}ralement ces capacit{\'e}s en mod{\'e}lisant la distribution statistique des mots par un apprentissage auto-supervis{\'e} sur de grandes quantit{\'e}s de texte. Toutefois, pour les domaines sp{\'e}cialis{\'e}s {\`a} faibles ressources, tels que le traitement de documents cliniques, en particulier dans des langues autres que l{'}anglais, la n{\'e}cessit{\'e} d{'}int{\'e}grer des connaissances structur{\'e}es reste d{'}une grande importance. Cet article se concentre sur l{'}une de ces applications sp{\'e}cialis{\'e}es de la mod{\'e}lisation du langage {\`a} partir de ressources limit{\'e}es : l{'}extraction d{'}informations {\`a} partir de documents biom{\'e}dicaux et cliniques en fran{\c{c}}ais. En particulier, nous montrons qu{'}en compl{\'e}tant le pr{\'e}-entra{\^\i}nement en mots masqu{\'e}s des r{\'e}seaux neuronaux transformer par des objectifs de pr{\'e}diction extraits d{'}une base de connaissances biom{\'e}dicales, leurs performances sur deux t{\^a}ches diff{\'e}rentes de reconnaissance d{'}entit{\'e}s nomm{\'e}es en fran{\c{c}}ais peuvent {\^e}tre augment{\'e}es.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="mannion-etal-2023-augmentation">
<titleInfo>
<title>Augmentation des modèles de langage français par graphes de connaissances pour la reconnaissance des entités biomédicales</title>
</titleInfo>
<name type="personal">
<namePart type="given">Aidan</namePart>
<namePart type="family">Mannion</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Schwab</namePart>
<namePart type="family">Didier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lorraine</namePart>
<namePart type="family">Goeuriot</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Thierry</namePart>
<namePart type="family">Chevalier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Servan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anne</namePart>
<namePart type="family">Vilnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Des travaux récents dans le domaine du traitement du langage naturel ont démontré l’efficacité des modèles de langage pré-entraînés pour une grande variété d’applications générales. Les modèles de langage à grande échelle acquièrent généralement ces capacités en modélisant la distribution statistique des mots par un apprentissage auto-supervisé sur de grandes quantités de texte. Toutefois, pour les domaines spécialisés à faibles ressources, tels que le traitement de documents cliniques, en particulier dans des langues autres que l’anglais, la nécessité d’intégrer des connaissances structurées reste d’une grande importance. Cet article se concentre sur l’une de ces applications spécialisées de la modélisation du langage à partir de ressources limitées : l’extraction d’informations à partir de documents biomédicaux et cliniques en français. En particulier, nous montrons qu’en complétant le pré-entraînement en mots masqués des réseaux neuronaux transformer par des objectifs de prédiction extraits d’une base de connaissances biomédicales, leurs performances sur deux tâches différentes de reconnaissance d’entités nommées en français peuvent être augmentées.</abstract>
<identifier type="citekey">mannion-etal-2023-augmentation</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-long.14</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>177</start>
<end>189</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Augmentation des modèles de langage français par graphes de connaissances pour la reconnaissance des entités biomédicales
%A Mannion, Aidan
%A Didier, Schwab
%A Goeuriot, Lorraine
%A Chevalier, Thierry
%Y Servan, Christophe
%Y Vilnat, Anne
%S Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F mannion-etal-2023-augmentation
%X Des travaux récents dans le domaine du traitement du langage naturel ont démontré l’efficacité des modèles de langage pré-entraînés pour une grande variété d’applications générales. Les modèles de langage à grande échelle acquièrent généralement ces capacités en modélisant la distribution statistique des mots par un apprentissage auto-supervisé sur de grandes quantités de texte. Toutefois, pour les domaines spécialisés à faibles ressources, tels que le traitement de documents cliniques, en particulier dans des langues autres que l’anglais, la nécessité d’intégrer des connaissances structurées reste d’une grande importance. Cet article se concentre sur l’une de ces applications spécialisées de la modélisation du langage à partir de ressources limitées : l’extraction d’informations à partir de documents biomédicaux et cliniques en français. En particulier, nous montrons qu’en complétant le pré-entraînement en mots masqués des réseaux neuronaux transformer par des objectifs de prédiction extraits d’une base de connaissances biomédicales, leurs performances sur deux tâches différentes de reconnaissance d’entités nommées en français peuvent être augmentées.
%U https://aclanthology.org/2023.jeptalnrecital-long.14
%P 177-189
Markdown (Informal)
[Augmentation des modèles de langage français par graphes de connaissances pour la reconnaissance des entités biomédicales](https://aclanthology.org/2023.jeptalnrecital-long.14) (Mannion et al., JEP/TALN/RECITAL 2023)
ACL