@inproceedings{belfathi-etal-2024-adaptation,
title = "Adaptation des mod{\`e}les de langue {\`a} des domaines de sp{\'e}cialit{\'e} par un masquage s{\'e}lectif fond{\'e} sur le genre et les caract{\'e}ristiques th{\'e}matiques",
author = "Belfathi, Anas and
Gallina, Ygor and
Hernandez, Nicolas and
Monceaux, Laura and
Dufour, Richard",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes de la 31{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-taln.19",
pages = "283--294",
abstract = "Les mod{\`e}les de langue pr{\'e}-entra{\^\i}n{\'e}s ont permis de r{\'e}aliser des avanc{\'e}es significatives dans diverses t{\^a}ches de traitement automatique du langage naturel (TALN).Une des caract{\'e}ristiques des mod{\`e}les reposant sur une architecture Transformeur concerne la strat{\'e}gie de masquage utilis{\'e}e pour capturer les relations syntaxiques et s{\'e}mantiques inh{\'e}rentes {\`a} une langue. Dans les architectures de type encodeur, comme par exemple BERT, les mots {\`a} masquer sont choisis al{\'e}atoirement. Cette strat{\'e}gie ne tient n{\'e}anmoins pas compte des caract{\'e}ristiques linguistiques sp{\'e}cifiques {\`a} un domaine.Dans ce travail, nous proposons de r{\'e}aliser un masquage s{\'e}lectif des mots en fonction de leur saillance th{\'e}matique dans les documents dans lesquels ils se produisent et de leur sp{\'e}cificit{\'e} au genre de document.Les performances des mod{\`e}les r{\'e}sultant d{'}un pr{\'e}-entra{\^\i}nement continu dans le domaine juridique soulignent l{'}efficacit{\'e} de notre approche sur le benchmark LexGLUE en langue anglaise.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="belfathi-etal-2024-adaptation">
<titleInfo>
<title>Adaptation des modèles de langue à des domaines de spécialité par un masquage sélectif fondé sur le genre et les caractéristiques thématiques</title>
</titleInfo>
<name type="personal">
<namePart type="given">Anas</namePart>
<namePart type="family">Belfathi</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Ygor</namePart>
<namePart type="family">Gallina</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nicolas</namePart>
<namePart type="family">Hernandez</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Laura</namePart>
<namePart type="family">Monceaux</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Richard</namePart>
<namePart type="family">Dufour</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les modèles de langue pré-entraînés ont permis de réaliser des avancées significatives dans diverses tâches de traitement automatique du langage naturel (TALN).Une des caractéristiques des modèles reposant sur une architecture Transformeur concerne la stratégie de masquage utilisée pour capturer les relations syntaxiques et sémantiques inhérentes à une langue. Dans les architectures de type encodeur, comme par exemple BERT, les mots à masquer sont choisis aléatoirement. Cette stratégie ne tient néanmoins pas compte des caractéristiques linguistiques spécifiques à un domaine.Dans ce travail, nous proposons de réaliser un masquage sélectif des mots en fonction de leur saillance thématique dans les documents dans lesquels ils se produisent et de leur spécificité au genre de document.Les performances des modèles résultant d’un pré-entraînement continu dans le domaine juridique soulignent l’efficacité de notre approche sur le benchmark LexGLUE en langue anglaise.</abstract>
<identifier type="citekey">belfathi-etal-2024-adaptation</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-taln.19</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>283</start>
<end>294</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Adaptation des modèles de langue à des domaines de spécialité par un masquage sélectif fondé sur le genre et les caractéristiques thématiques
%A Belfathi, Anas
%A Gallina, Ygor
%A Hernandez, Nicolas
%A Monceaux, Laura
%A Dufour, Richard
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G French
%F belfathi-etal-2024-adaptation
%X Les modèles de langue pré-entraînés ont permis de réaliser des avancées significatives dans diverses tâches de traitement automatique du langage naturel (TALN).Une des caractéristiques des modèles reposant sur une architecture Transformeur concerne la stratégie de masquage utilisée pour capturer les relations syntaxiques et sémantiques inhérentes à une langue. Dans les architectures de type encodeur, comme par exemple BERT, les mots à masquer sont choisis aléatoirement. Cette stratégie ne tient néanmoins pas compte des caractéristiques linguistiques spécifiques à un domaine.Dans ce travail, nous proposons de réaliser un masquage sélectif des mots en fonction de leur saillance thématique dans les documents dans lesquels ils se produisent et de leur spécificité au genre de document.Les performances des modèles résultant d’un pré-entraînement continu dans le domaine juridique soulignent l’efficacité de notre approche sur le benchmark LexGLUE en langue anglaise.
%U https://aclanthology.org/2024.jeptalnrecital-taln.19
%P 283-294
Markdown (Informal)
[Adaptation des modèles de langue à des domaines de spécialité par un masquage sélectif fondé sur le genre et les caractéristiques thématiques](https://aclanthology.org/2024.jeptalnrecital-taln.19) (Belfathi et al., JEP/TALN/RECITAL 2024)
ACL