Marianne Desmets


2025

pdf bib
Augmentation des données par LLM pour améliorer la détection automatique des erreurs de coordination
Chunxiao Yan | Iris Eshkol-Taravella | Sarah De V ogué | Marianne Desmets
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

Afin d’améliorer les performances d’un outil de détection automatique des erreurs de coordination, cette étude explore l’utilisation de grands modèles de langage (LLM) pour remédier au déséquilibre des classes et à la limitation des données. En générant des phrases erronées simulées par un LLM pour former un corpus synthétique, nous améliorons la détection d’une classe sous-représentée ainsi que les performances globales du modèle. Nous étudions également l’application des LLM à l’annotation des données, avec pour objectif d’intégrer ces annotations à l’entraînement afin d’optimiser l’apprentissage du modèle.

2023

pdf bib
Détecter une erreur dans les phrases coordonnées au sein des rédactions universitaires
Laura Noreskal | Iris Eshkol-Taravella | Marianne Desmets
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs

Beaucoup d’étudiants rencontrent des difficultés dans la maîtrise du français écrit. Sur la base d’une enquête linguistique préliminaire, il est apparu que les constructions syntaxiques comprenant des coordinations et des constructions elliptiques forment des contextes linguistiques sensibles aux erreurs ou aux maladresses dans les écrits des étudiants. Notre recherche vise à développer un outil de détection automatique de phrases coordonnées erronées dans les rédactions des étudiants afin de leur permettre de s’auto-former en expression écrite. Après avoir constitué le corpus de phrases coordonnées extraites des différents écrits universitaires (exercices, examens, devoirs, rapports de stage et mémoires), nous avons établi une typologie des erreurs qui a servi de modèle pour l’annotation du corpus. Nous avons entrainé premièrement des classifieurs afin de détecter deux étiquettes: erronée et correcte puis, dans un second temps, un classifieur multi-label pour diagnostiquer l’erreur.