TCFLE-8 : un corpus de productions écrites d’apprenants de français langue étrangère et son application à la correction automatisée de textes

Rodrigo Wilkens, Alice Pintard, David Alfter, Vincent Folny, Thomas François


Abstract
La correction automatisée de textes (CAT) vise à évaluer automatiquement la qualité de textes écrits. L’automatisation permet une évaluation à grande échelle ainsi qu’une amélioration de la cohérence, de la fiabilité et de la normalisation du processus. Ces caractéristiques sont particulièrement importantes dans le contexte des examens de certification linguistique. Cependant, un goulot d’étranglement majeur dans le développement des systèmes CAT est la disponibilité des corpus. Dans cet article, nous visons à encourager le développement de systèmes de correction automatique en fournissant le corpus TCFLE-8, un corpus de 6~569 essais collectés dans le contexte de l’examen de certification Test de Connaissance du Français (TCF). Nous décrivons la procédure d’évaluation stricte qui a conduit à la notation de chaque essai par au moins deux évaluateurs selon l’échelle du Cadre européen commun de référence pour les langues (CECR) et à la création d’un corpus équilibré. Nous faisons également progresser les performances de l’état de l’art pour la tâche de CAT en français en expérimentant deux solides modèles de référence.
Anthology ID:
2024.jeptalnrecital-taln.44
Volume:
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
677–685
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-taln.44
DOI:
Bibkey:
Cite (ACL):
Rodrigo Wilkens, Alice Pintard, David Alfter, Vincent Folny, and Thomas François. 2024. TCFLE-8 : un corpus de productions écrites d’apprenants de français langue étrangère et son application à la correction automatisée de textes. In Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position, pages 677–685, Toulouse, France. ATALA and AFPC.
Cite (Informal):
TCFLE-8 : un corpus de productions écrites d’apprenants de français langue étrangère et son application à la correction automatisée de textes (Wilkens et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.jeptalnrecital-taln.44.pdf