La détection de textes générés par des modèles de langue : une tâche complexe? Une étude sur des textes académiques

Vijini Liyanage, Davide Buscaldi


Abstract
L’émergence de modèles de langage très puissants tels que GPT-3 a sensibilisé les chercheurs à la problématique de la détection de textes académiques générés automatiquement, principalement dans un souci de prévention de plagiat. Plusieurs études ont montré que les modèles de détection actuels ont une précision élevée, en donnant l’impression que la tâche soit résolue. Cependant, nous avons observé que les ensembles de données utilisés pour ces expériences contiennent des textes générés automatiquement à partir de modèles pré-entraînés. Une utilisation plus réaliste des modèles de langage consisterait à effectuer un fine-tuning sur un texte écrit par un humain pour compléter les parties manquantes. Ainsi, nous avons constitué un corpus de textes générés de manière plus réaliste et mené des expériences avec plusieurs modèles de classification. Nos résultats montrent que lorsque les ensembles de données sont générés de manière réaliste pour simuler l’utilisation de modèles de langage par les chercheurs, la détection de ces textes devient une tâche assez difficile.
Anthology ID:
2023.jeptalnrecital-arts.12
Volume:
Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023
Month:
6
Year:
2023
Address:
Paris, France
Editors:
Florian Boudin, Béatrice Daille, Richard Dufour, Oumaima El, Maël Houbre, Léane Jourdan, Nihel Kooli
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
71–78
Language:
French
URL:
https://aclanthology.org/2023.jeptalnrecital-arts.12
DOI:
Bibkey:
Cite (ACL):
Vijini Liyanage and Davide Buscaldi. 2023. La détection de textes générés par des modèles de langue : une tâche complexe? Une étude sur des textes académiques. In Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023, pages 71–78, Paris, France. ATALA.
Cite (Informal):
La détection de textes générés par des modèles de langue : une tâche complexe? Une étude sur des textes académiques (Liyanage & Buscaldi, JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:
https://aclanthology.org/2023.jeptalnrecital-arts.12.pdf