Augmentation des données par LLM pour améliorer la détection automatique des erreurs de coordination

Chunxiao Yan, Iris Eshkol-Taravella, Sarah De V ogué, Marianne Desmets


Abstract
Afin d’améliorer les performances d’un outil de détection automatique des erreurs de coordination, cette étude explore l’utilisation de grands modèles de langage (LLM) pour remédier au déséquilibre des classes et à la limitation des données. En générant des phrases erronées simulées par un LLM pour former un corpus synthétique, nous améliorons la détection d’une classe sous-représentée ainsi que les performances globales du modèle. Nous étudions également l’application des LLM à l’annotation des données, avec pour objectif d’intégrer ces annotations à l’entraînement afin d’optimiser l’apprentissage du modèle.
Anthology ID:
2025.jeptalnrecital-taln.9
Volume:
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
154–166
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-taln.9/
DOI:
Bibkey:
Cite (ACL):
Chunxiao Yan, Iris Eshkol-Taravella, Sarah De V ogué, and Marianne Desmets. 2025. Augmentation des données par LLM pour améliorer la détection automatique des erreurs de coordination. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux, pages 154–166, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Augmentation des données par LLM pour améliorer la détection automatique des erreurs de coordination (Yan et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-taln.9.pdf