Apprentissage Actif à l’ère des Grands Modèles de Langue (LLMs)

Shami Thirion Sen, Rime Abrougui, Guillaume Lechien, Damien Nouvel


Abstract
En TAL, la performance des modèles dépend fortement de la qualité et de la quantité des données annotées. Lorsque ces ressources sont limitées, l’apprentissage actif (Active Learning) offre une solution efficace en sélectionnant les échantillons les plus pertinents à annoter. Traditionnellement, cette tâche est réalisée par des annotateurs humains, mais nous explorons ici le potentiel du grand modèle de langue Mixtral-8x7B pour générer automatiquement ces annotations. Nous analysons l’influence de l’augmentation des données dans un processus d’apprentissage actif pour la reconnaissance d’entités nommées, ainsi que l’impact du prompt et des hyper-paramètres sur la qualité des annotations. Les évaluations conduites sur le corpus WiNER montrent que, malgré l’absence d’annotations manuelles, cette approche permet d’obtenir des performances comparables à notre baseline, tout en réduisant de 80 % la quantité des données.
Anthology ID:
2025.jeptalnrecital-industrielle.1
Volume:
Actes de la session industrielle de CORIA-TALN 2025
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
1–16
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-industrielle.1/
DOI:
Bibkey:
Cite (ACL):
Shami Thirion Sen, Rime Abrougui, Guillaume Lechien, and Damien Nouvel. 2025. Apprentissage Actif à l’ère des Grands Modèles de Langue (LLMs). In Actes de la session industrielle de CORIA-TALN 2025, pages 1–16, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Apprentissage Actif à l’ère des Grands Modèles de Langue (LLMs) (Thirion Sen et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-industrielle.1.pdf