@inproceedings{bogdanov-etal-2025-nuner,
title = "{N}u{NER} : Pr{\'e}-entra{\^i}nement d{'}un encodeur pour la reconnaissance d{'}entit{\'e}s nomm{\'e}es avec des donn{\'e}es annot{\'e}es automatiquement",
author = "Bogdanov, Sergei and
Constantin, Alexandre and
Bernard, Timoth{\'e}e and
Crabb{\'e}, Beno{\^i}t and
Bernard, {\'E}tienne",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publi{\'e}s",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-trad.21/",
pages = "51--52",
language = "fra",
abstract = "Les grands mod{\`e}les de langues (ou LLM, pour {\guillemotleft} large language models {\guillemotright}) peuvent s{'}av{\'e}rer tr{\`e}s efficaces pour l{'}annotation de donn{\'e}es, ouvrant la voie {\`a} de nouvelles approches pour d{\'e}velopper des syst{\`e}mes de traitement automatique des langues par apprentissage automatique. Dans cet article, nous d{\'e}taillons l{'}utilisation d{'}un LLM dans le d{\'e}veloppement de NuNER, un mod{\`e}le d{'}encodage du texte, compact et sp{\'e}cialis{\'e} dans la t{\^a}che de reconnaissance des entit{\'e}s nomm{\'e}es (ou NER, pour {\guillemotleft} named entity recognition {\guillemotright}). NuNER fait ainsi partie de la famille des mod{\`e}les de fondation sp{\'e}cialis{\'e}s. L{'}int{\'e}r{\^e}t de NuNER est qu{'}il ne n{\'e}cessite que tr{\`e}s peu de donn{\'e}es d{'}affinage pour obtenir un syst{\`e}me de NER performant, quel que soit le domaine cible. Nous montrons qu{'}en r{\'e}gime d{'}apprentissage avec peu d{'}exemples ({\guillemotleft} few-shot learning {\guillemotright}), NuNER surpasse les principaux mod{\`e}les de fondation de taille comparable et a des performances similaires {\`a} celles de mod{\`e}les de bien plus grande taille. Nos exp{\'e}riences montrent que la taille du jeu de pr{\'e}-entra{\^i}nement mais aussi la diversit{\'e} des types d{'}entit{\'e}s qui y occurrent jouent un r{\^o}le essentiel dans ces r{\'e}sultats. NuNER et l{'}ensemble de ses donn{\'e}es d{'}entra{\^i}nement sont disponibles sous licence libre MIT."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="bogdanov-etal-2025-nuner">
<titleInfo>
<title>NuNER : Pré-entraînement d’un encodeur pour la reconnaissance d’entités nommées avec des données annotées automatiquement</title>
</titleInfo>
<name type="personal">
<namePart type="given">Sergei</namePart>
<namePart type="family">Bogdanov</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Alexandre</namePart>
<namePart type="family">Constantin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Timothée</namePart>
<namePart type="family">Bernard</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoît</namePart>
<namePart type="family">Crabbé</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Étienne</namePart>
<namePart type="family">Bernard</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les grands modèles de langues (ou LLM, pour \guillemotleft large language models \guillemotright) peuvent s’avérer très efficaces pour l’annotation de données, ouvrant la voie à de nouvelles approches pour développer des systèmes de traitement automatique des langues par apprentissage automatique. Dans cet article, nous détaillons l’utilisation d’un LLM dans le développement de NuNER, un modèle d’encodage du texte, compact et spécialisé dans la tâche de reconnaissance des entités nommées (ou NER, pour \guillemotleft named entity recognition \guillemotright). NuNER fait ainsi partie de la famille des modèles de fondation spécialisés. L’intérêt de NuNER est qu’il ne nécessite que très peu de données d’affinage pour obtenir un système de NER performant, quel que soit le domaine cible. Nous montrons qu’en régime d’apprentissage avec peu d’exemples (\guillemotleft few-shot learning \guillemotright), NuNER surpasse les principaux modèles de fondation de taille comparable et a des performances similaires à celles de modèles de bien plus grande taille. Nos expériences montrent que la taille du jeu de pré-entraînement mais aussi la diversité des types d’entités qui y occurrent jouent un rôle essentiel dans ces résultats. NuNER et l’ensemble de ses données d’entraînement sont disponibles sous licence libre MIT.</abstract>
<identifier type="citekey">bogdanov-etal-2025-nuner</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-trad.21/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>51</start>
<end>52</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T NuNER : Pré-entraînement d’un encodeur pour la reconnaissance d’entités nommées avec des données annotées automatiquement
%A Bogdanov, Sergei
%A Constantin, Alexandre
%A Bernard, Timothée
%A Crabbé, Benoît
%A Bernard, Étienne
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d’articles publiés
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F bogdanov-etal-2025-nuner
%X Les grands modèles de langues (ou LLM, pour \guillemotleft large language models \guillemotright) peuvent s’avérer très efficaces pour l’annotation de données, ouvrant la voie à de nouvelles approches pour développer des systèmes de traitement automatique des langues par apprentissage automatique. Dans cet article, nous détaillons l’utilisation d’un LLM dans le développement de NuNER, un modèle d’encodage du texte, compact et spécialisé dans la tâche de reconnaissance des entités nommées (ou NER, pour \guillemotleft named entity recognition \guillemotright). NuNER fait ainsi partie de la famille des modèles de fondation spécialisés. L’intérêt de NuNER est qu’il ne nécessite que très peu de données d’affinage pour obtenir un système de NER performant, quel que soit le domaine cible. Nous montrons qu’en régime d’apprentissage avec peu d’exemples (\guillemotleft few-shot learning \guillemotright), NuNER surpasse les principaux modèles de fondation de taille comparable et a des performances similaires à celles de modèles de bien plus grande taille. Nos expériences montrent que la taille du jeu de pré-entraînement mais aussi la diversité des types d’entités qui y occurrent jouent un rôle essentiel dans ces résultats. NuNER et l’ensemble de ses données d’entraînement sont disponibles sous licence libre MIT.
%U https://aclanthology.org/2025.jeptalnrecital-trad.21/
%P 51-52
Markdown (Informal)
[NuNER : Pré-entraînement d’un encodeur pour la reconnaissance d’entités nommées avec des données annotées automatiquement](https://aclanthology.org/2025.jeptalnrecital-trad.21/) (Bogdanov et al., JEP/TALN/RECITAL 2025)
ACL