@inproceedings{thirion-sen-etal-2025-apprentissage,
title = "Apprentissage Actif {\`a} l'{\`e}re des Grands Mod{\`e}les de Langue ({LLM}s)",
author = "Thirion Sen, Shami and
Abrougui, Rime and
Lechien, Guillaume and
Nouvel, Damien",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de la session industrielle de CORIA-TALN 2025",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-industrielle.1/",
pages = "1--16",
language = "fra",
abstract = "En TAL, la performance des mod{\`e}les d{\'e}pend fortement de la qualit{\'e} et de la quantit{\'e} des donn{\'e}es annot{\'e}es. Lorsque ces ressources sont limit{\'e}es, l{'}apprentissage actif (Active Learning) offre une solution efficace en s{\'e}lectionnant les {\'e}chantillons les plus pertinents {\`a} annoter. Traditionnellement, cette t{\^a}che est r{\'e}alis{\'e}e par des annotateurs humains, mais nous explorons ici le potentiel du grand mod{\`e}le de langue Mixtral-8x7B pour g{\'e}n{\'e}rer automatiquement ces annotations. Nous analysons l{'}influence de l{'}augmentation des donn{\'e}es dans un processus d{'}apprentissage actif pour la reconnaissance d{'}entit{\'e}s nomm{\'e}es, ainsi que l{'}impact du prompt et des hyper-param{\`e}tres sur la qualit{\'e} des annotations. Les {\'e}valuations conduites sur le corpus WiNER montrent que, malgr{\'e} l{'}absence d{'}annotations manuelles, cette approche permet d{'}obtenir des performances comparables {\`a} notre baseline, tout en r{\'e}duisant de 80 {\%} la quantit{\'e} des donn{\'e}es."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="thirion-sen-etal-2025-apprentissage">
<titleInfo>
<title>Apprentissage Actif à l’ère des Grands Modèles de Langue (LLMs)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Shami</namePart>
<namePart type="family">Thirion Sen</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Rime</namePart>
<namePart type="family">Abrougui</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Guillaume</namePart>
<namePart type="family">Lechien</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Damien</namePart>
<namePart type="family">Nouvel</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la session industrielle de CORIA-TALN 2025</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>En TAL, la performance des modèles dépend fortement de la qualité et de la quantité des données annotées. Lorsque ces ressources sont limitées, l’apprentissage actif (Active Learning) offre une solution efficace en sélectionnant les échantillons les plus pertinents à annoter. Traditionnellement, cette tâche est réalisée par des annotateurs humains, mais nous explorons ici le potentiel du grand modèle de langue Mixtral-8x7B pour générer automatiquement ces annotations. Nous analysons l’influence de l’augmentation des données dans un processus d’apprentissage actif pour la reconnaissance d’entités nommées, ainsi que l’impact du prompt et des hyper-paramètres sur la qualité des annotations. Les évaluations conduites sur le corpus WiNER montrent que, malgré l’absence d’annotations manuelles, cette approche permet d’obtenir des performances comparables à notre baseline, tout en réduisant de 80 % la quantité des données.</abstract>
<identifier type="citekey">thirion-sen-etal-2025-apprentissage</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-industrielle.1/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>1</start>
<end>16</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Apprentissage Actif à l’ère des Grands Modèles de Langue (LLMs)
%A Thirion Sen, Shami
%A Abrougui, Rime
%A Lechien, Guillaume
%A Nouvel, Damien
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de la session industrielle de CORIA-TALN 2025
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F thirion-sen-etal-2025-apprentissage
%X En TAL, la performance des modèles dépend fortement de la qualité et de la quantité des données annotées. Lorsque ces ressources sont limitées, l’apprentissage actif (Active Learning) offre une solution efficace en sélectionnant les échantillons les plus pertinents à annoter. Traditionnellement, cette tâche est réalisée par des annotateurs humains, mais nous explorons ici le potentiel du grand modèle de langue Mixtral-8x7B pour générer automatiquement ces annotations. Nous analysons l’influence de l’augmentation des données dans un processus d’apprentissage actif pour la reconnaissance d’entités nommées, ainsi que l’impact du prompt et des hyper-paramètres sur la qualité des annotations. Les évaluations conduites sur le corpus WiNER montrent que, malgré l’absence d’annotations manuelles, cette approche permet d’obtenir des performances comparables à notre baseline, tout en réduisant de 80 % la quantité des données.
%U https://aclanthology.org/2025.jeptalnrecital-industrielle.1/
%P 1-16
Markdown (Informal)
[Apprentissage Actif à l’ère des Grands Modèles de Langue (LLMs)](https://aclanthology.org/2025.jeptalnrecital-industrielle.1/) (Thirion Sen et al., JEP/TALN/RECITAL 2025)
ACL