@inproceedings{yan-etal-2025-augmentation,
title = "Augmentation des donn{\'e}es par {LLM} pour am{\'e}liorer la d{\'e}tection automatique des erreurs de coordination",
author = "Yan, Chunxiao and
Eshkol-Taravella, Iris and
De V ogu{\'e}, Sarah and
Desmets, Marianne",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-taln.9/",
pages = "154--166",
language = "fra",
abstract = "Afin d{'}am{\'e}liorer les performances d{'}un outil de d{\'e}tection automatique des erreurs de coordination, cette {\'e}tude explore l{'}utilisation de grands mod{\`e}les de langage (LLM) pour rem{\'e}dier au d{\'e}s{\'e}quilibre des classes et {\`a} la limitation des donn{\'e}es. En g{\'e}n{\'e}rant des phrases erron{\'e}es simul{\'e}es par un LLM pour former un corpus synth{\'e}tique, nous am{\'e}liorons la d{\'e}tection d{'}une classe sous-repr{\'e}sent{\'e}e ainsi que les performances globales du mod{\`e}le. Nous {\'e}tudions {\'e}galement l{'}application des LLM {\`a} l{'}annotation des donn{\'e}es, avec pour objectif d{'}int{\'e}grer ces annotations {\`a} l{'}entra{\^i}nement afin d{'}optimiser l{'}apprentissage du mod{\`e}le."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="yan-etal-2025-augmentation">
<titleInfo>
<title>Augmentation des données par LLM pour améliorer la détection automatique des erreurs de coordination</title>
</titleInfo>
<name type="personal">
<namePart type="given">Chunxiao</namePart>
<namePart type="family">Yan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Iris</namePart>
<namePart type="family">Eshkol-Taravella</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sarah</namePart>
<namePart type="family">De V ogué</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Marianne</namePart>
<namePart type="family">Desmets</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Afin d’améliorer les performances d’un outil de détection automatique des erreurs de coordination, cette étude explore l’utilisation de grands modèles de langage (LLM) pour remédier au déséquilibre des classes et à la limitation des données. En générant des phrases erronées simulées par un LLM pour former un corpus synthétique, nous améliorons la détection d’une classe sous-représentée ainsi que les performances globales du modèle. Nous étudions également l’application des LLM à l’annotation des données, avec pour objectif d’intégrer ces annotations à l’entraînement afin d’optimiser l’apprentissage du modèle.</abstract>
<identifier type="citekey">yan-etal-2025-augmentation</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-taln.9/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>154</start>
<end>166</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Augmentation des données par LLM pour améliorer la détection automatique des erreurs de coordination
%A Yan, Chunxiao
%A Eshkol-Taravella, Iris
%A De V ogué, Sarah
%A Desmets, Marianne
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F yan-etal-2025-augmentation
%X Afin d’améliorer les performances d’un outil de détection automatique des erreurs de coordination, cette étude explore l’utilisation de grands modèles de langage (LLM) pour remédier au déséquilibre des classes et à la limitation des données. En générant des phrases erronées simulées par un LLM pour former un corpus synthétique, nous améliorons la détection d’une classe sous-représentée ainsi que les performances globales du modèle. Nous étudions également l’application des LLM à l’annotation des données, avec pour objectif d’intégrer ces annotations à l’entraînement afin d’optimiser l’apprentissage du modèle.
%U https://aclanthology.org/2025.jeptalnrecital-taln.9/
%P 154-166
Markdown (Informal)
[Augmentation des données par LLM pour améliorer la détection automatique des erreurs de coordination](https://aclanthology.org/2025.jeptalnrecital-taln.9/) (Yan et al., JEP/TALN/RECITAL 2025)
ACL