@inproceedings{sebbag-etal-2025-adminset-adminbert,
title = "{A}dmin{S}et and {A}dmin{BERT} : un jeu de donn{\'e}es et un mod{\`e}le de langue pr{\'e}-entra{\^i}n{\'e} pour explorer le d{\'e}dale non structur{\'e} des donn{\'e}es administratives fran{\c{c}}aises",
author = "Sebbag, Thomas and
Quiniou, Solen and
Stucky, Nicolas and
Morin, Emmanuel",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publi{\'e}s",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-trad.3/",
pages = "3--4",
language = "fra",
abstract = "Les mod{\`e}les de langue pr{\'e}-entra{\^i}n{\'e}s (PLM) sont largement utilis{\'e}s en traitement automatique du langage naturel (TALN), mais peu adapt{\'e}s aux textes administratifs, souvent non standardis{\'e}s et sp{\'e}cialis{\'e}s. En France, l{'}absence de r{\'e}glementation uniforme et l{'}h{\'e}t{\'e}rog{\'e}n{\'e}it{\'e} des sources compliquent le traitement des documents administratifs. Pour pallier ce probl{\`e}me, nous proposons AdminBERT, le premier mod{\`e}le de langue pr{\'e}-entra{\^i}n{\'e} en fran{\c{c}}ais d{\'e}di{\'e} aux documents administratifs. Nous {\'e}valuons AdminBERT sur la t{\^a}che de reconnaissance des entit{\'e}s nomm{\'e}es (REN), en le comparant {\`a} des mod{\`e}les g{\'e}n{\'e}riques, un grand mod{\`e}le de langue (LLM) et une variante du mod{\`e}le BERT. Nos r{\'e}sultats montrent qu{'}un pr{\'e}-entra{\^i}nement sur des textes administratifs am{\'e}liore significativement la reconnaissance des entit{\'e}s nomm{\'e}es. Nous mettons {\`a} disposition AdminBERT, AdminSet (un corpus de pr{\'e}-entra{\^i}nement) et AdminSet-NER, le premier jeu de donn{\'e}es annot{\'e} pour la REN sur des textes administratifs fran{\c{c}}ais."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="sebbag-etal-2025-adminset-adminbert">
<titleInfo>
<title>AdminSet and AdminBERT : un jeu de données et un modèle de langue pré-entraîné pour explorer le dédale non structuré des données administratives françaises</title>
</titleInfo>
<name type="personal">
<namePart type="given">Thomas</namePart>
<namePart type="family">Sebbag</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Solen</namePart>
<namePart type="family">Quiniou</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nicolas</namePart>
<namePart type="family">Stucky</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Emmanuel</namePart>
<namePart type="family">Morin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les modèles de langue pré-entraînés (PLM) sont largement utilisés en traitement automatique du langage naturel (TALN), mais peu adaptés aux textes administratifs, souvent non standardisés et spécialisés. En France, l’absence de réglementation uniforme et l’hétérogénéité des sources compliquent le traitement des documents administratifs. Pour pallier ce problème, nous proposons AdminBERT, le premier modèle de langue pré-entraîné en français dédié aux documents administratifs. Nous évaluons AdminBERT sur la tâche de reconnaissance des entités nommées (REN), en le comparant à des modèles génériques, un grand modèle de langue (LLM) et une variante du modèle BERT. Nos résultats montrent qu’un pré-entraînement sur des textes administratifs améliore significativement la reconnaissance des entités nommées. Nous mettons à disposition AdminBERT, AdminSet (un corpus de pré-entraînement) et AdminSet-NER, le premier jeu de données annoté pour la REN sur des textes administratifs français.</abstract>
<identifier type="citekey">sebbag-etal-2025-adminset-adminbert</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-trad.3/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>3</start>
<end>4</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T AdminSet and AdminBERT : un jeu de données et un modèle de langue pré-entraîné pour explorer le dédale non structuré des données administratives françaises
%A Sebbag, Thomas
%A Quiniou, Solen
%A Stucky, Nicolas
%A Morin, Emmanuel
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F sebbag-etal-2025-adminset-adminbert
%X Les modèles de langue pré-entraînés (PLM) sont largement utilisés en traitement automatique du langage naturel (TALN), mais peu adaptés aux textes administratifs, souvent non standardisés et spécialisés. En France, l’absence de réglementation uniforme et l’hétérogénéité des sources compliquent le traitement des documents administratifs. Pour pallier ce problème, nous proposons AdminBERT, le premier modèle de langue pré-entraîné en français dédié aux documents administratifs. Nous évaluons AdminBERT sur la tâche de reconnaissance des entités nommées (REN), en le comparant à des modèles génériques, un grand modèle de langue (LLM) et une variante du modèle BERT. Nos résultats montrent qu’un pré-entraînement sur des textes administratifs améliore significativement la reconnaissance des entités nommées. Nous mettons à disposition AdminBERT, AdminSet (un corpus de pré-entraînement) et AdminSet-NER, le premier jeu de données annoté pour la REN sur des textes administratifs français.
%U https://aclanthology.org/2025.jeptalnrecital-trad.3/
%P 3-4
Markdown (Informal)
[AdminSet and AdminBERT : un jeu de données et un modèle de langue pré-entraîné pour explorer le dédale non structuré des données administratives françaises](https://aclanthology.org/2025.jeptalnrecital-trad.3/) (Sebbag et al., JEP/TALN/RECITAL 2025)
ACL