Sergei Bogdanov

2025

NuNER : Pré-entraînement d’un encodeur pour la reconnaissance d’entités nommées avec des données annotées automatiquement
Sergei Bogdanov | Alexandre Constantin | Timothée Bernard | Benoît Crabbé | Étienne Bernard
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés

Les grands modèles de langues (ou LLM, pour « large language models ») peuvent s’avérer très efficaces pour l’annotation de données, ouvrant la voie à de nouvelles approches pour développer des systèmes de traitement automatique des langues par apprentissage automatique. Dans cet article, nous détaillons l’utilisation d’un LLM dans le développement de NuNER, un modèle d’encodage du texte, compact et spécialisé dans la tâche de reconnaissance des entités nommées (ou NER, pour « named entity recognition »). NuNER fait ainsi partie de la famille des modèles de fondation spécialisés. L’intérêt de NuNER est qu’il ne nécessite que très peu de données d’affinage pour obtenir un système de NER performant, quel que soit le domaine cible. Nous montrons qu’en régime d’apprentissage avec peu d’exemples (« few-shot learning »), NuNER surpasse les principaux modèles de fondation de taille comparable et a des performances similaires à celles de modèles de bien plus grande taille. Nos expériences montrent que la taille du jeu de pré-entraînement mais aussi la diversité des types d’entités qui y occurrent jouent un rôle essentiel dans ces résultats. NuNER et l’ensemble de ses données d’entraînement sont disponibles sous licence libre MIT.

2024

pdf bib abs

NuNER: Entity Recognition Encoder Pre-training via LLM-Annotated Data
Sergei Bogdanov | Alexandre Constantin | Timothée Bernard | Benoit Crabbé | Etienne P Bernard
Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing

Large Language Models (LLMs) have shown impressive abilities in data annotation, opening the way for new approaches to solve classic NLP problems. In this paper, we show how to use LLMs to create NuNER, a compact language representation model specialized in the Named Entity Recognition (NER) task. NuNER can be fine-tuned to solve downstream NER problems in a data-efficient way, outperforming similar-sized foundation models in the few-shot regime and competing with much larger LLMs. We find that the size and entity-type diversity of the pre-training dataset are key to achieving good performance. We view NuNER as a member of the broader family of task-specific foundation models, recently unlocked by LLMs. NuNER and NuNER’s dataset are open-sourced with MIT License.

Co-authors

Venues

Fix author