@inproceedings{touchent-etal-2023-camembert,
title = "{C}amem{BERT}-bio : Un mod{\`e}le de langue fran{\c{c}}ais savoureux et meilleur pour la sant{\'e}",
author = "Touchent, Rian and
Romary, Laurent and
De La Clergerie, Eric",
editor = "Servan, Christophe and
Vilnat, Anne",
booktitle = "Actes de CORIA-TALN 2023. Actes de la 30e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-long.25",
pages = "323--334",
abstract = "Les donn{\'e}es cliniques dans les h{\^o}pitaux sont de plus en plus accessibles pour la recherche {\`a} travers les entrep{\^o}ts de donn{\'e}es de sant{\'e}, cependant ces documents sont non-structur{\'e}s. Il est donc n{\'e}cessaire d{'}extraire les informations des comptes-rendus m{\'e}dicaux. L{'}utilisation du transfert d{'}apprentissage gr{\^a}ce {\`a} des mod{\`e}les de type BERT comme CamemBERT ont permis des avanc{\'e}es majeures, notamment pour la reconnaissance d{'}entit{\'e}s nomm{\'e}es. Cependant, ces mod{\`e}les sont entra{\^\i}n{\'e}s pour le langage courant et sont moins performants sur des donn{\'e}es biom{\'e}dicales. C{'}est pourquoi nous proposons un nouveau jeu de donn{\'e}es biom{\'e}dical public fran{\c{c}}ais sur lequel nous avons poursuivi le pr{\'e}-entra{\^\i}nement de CamemBERT. Ainsi, nous pr{\'e}sentons une premi{\`e}re version de CamemBERT-bio, un mod{\`e}le public sp{\'e}cialis{\'e} pour le domaine biom{\'e}dical fran{\c{c}}ais qui montre un gain de 2,54 points de F-mesure en moyenne sur diff{\'e}rents jeux d{'}{\'e}valuations de reconnaissance d{'}entit{\'e}s nomm{\'e}es biom{\'e}dicales.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="touchent-etal-2023-camembert">
<titleInfo>
<title>CamemBERT-bio : Un modèle de langue français savoureux et meilleur pour la santé</title>
</titleInfo>
<name type="personal">
<namePart type="given">Rian</namePart>
<namePart type="family">Touchent</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Laurent</namePart>
<namePart type="family">Romary</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eric</namePart>
<namePart type="family">De La Clergerie</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Servan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anne</namePart>
<namePart type="family">Vilnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les données cliniques dans les hôpitaux sont de plus en plus accessibles pour la recherche à travers les entrepôts de données de santé, cependant ces documents sont non-structurés. Il est donc nécessaire d’extraire les informations des comptes-rendus médicaux. L’utilisation du transfert d’apprentissage grâce à des modèles de type BERT comme CamemBERT ont permis des avancées majeures, notamment pour la reconnaissance d’entités nommées. Cependant, ces modèles sont entraînés pour le langage courant et sont moins performants sur des données biomédicales. C’est pourquoi nous proposons un nouveau jeu de données biomédical public français sur lequel nous avons poursuivi le pré-entraînement de CamemBERT. Ainsi, nous présentons une première version de CamemBERT-bio, un modèle public spécialisé pour le domaine biomédical français qui montre un gain de 2,54 points de F-mesure en moyenne sur différents jeux d’évaluations de reconnaissance d’entités nommées biomédicales.</abstract>
<identifier type="citekey">touchent-etal-2023-camembert</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-long.25</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>323</start>
<end>334</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T CamemBERT-bio : Un modèle de langue français savoureux et meilleur pour la santé
%A Touchent, Rian
%A Romary, Laurent
%A De La Clergerie, Eric
%Y Servan, Christophe
%Y Vilnat, Anne
%S Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F touchent-etal-2023-camembert
%X Les données cliniques dans les hôpitaux sont de plus en plus accessibles pour la recherche à travers les entrepôts de données de santé, cependant ces documents sont non-structurés. Il est donc nécessaire d’extraire les informations des comptes-rendus médicaux. L’utilisation du transfert d’apprentissage grâce à des modèles de type BERT comme CamemBERT ont permis des avancées majeures, notamment pour la reconnaissance d’entités nommées. Cependant, ces modèles sont entraînés pour le langage courant et sont moins performants sur des données biomédicales. C’est pourquoi nous proposons un nouveau jeu de données biomédical public français sur lequel nous avons poursuivi le pré-entraînement de CamemBERT. Ainsi, nous présentons une première version de CamemBERT-bio, un modèle public spécialisé pour le domaine biomédical français qui montre un gain de 2,54 points de F-mesure en moyenne sur différents jeux d’évaluations de reconnaissance d’entités nommées biomédicales.
%U https://aclanthology.org/2023.jeptalnrecital-long.25
%P 323-334
Markdown (Informal)
[CamemBERT-bio : Un modèle de langue français savoureux et meilleur pour la santé](https://aclanthology.org/2023.jeptalnrecital-long.25) (Touchent et al., JEP/TALN/RECITAL 2023)
ACL