@inproceedings{liyanage-buscaldi-2023-la,
title = "La d{\'e}tection de textes g{\'e}n{\'e}r{\'e}s par des mod{\`e}les de langue : une t{\^a}che complexe? Une {\'e}tude sur des textes acad{\'e}miques",
author = "Liyanage, Vijini and
Buscaldi, Davide",
editor = {Boudin, Florian and
Daille, B{\'e}atrice and
Dufour, Richard and
El, Oumaima and
Houbre, Ma{\"e}l and
Jourdan, L{\'e}ane and
Kooli, Nihel},
booktitle = "Actes de CORIA-TALN 2023. Actes de l'atelier ``Analyse et Recherche de Textes Scientifiques'' (ARTS)@TALN 2023",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-arts.12",
pages = "71--78",
abstract = "L{'}{\'e}mergence de mod{\`e}les de langage tr{\`e}s puissants tels que GPT-3 a sensibilis{\'e} les chercheurs {\`a} la probl{\'e}matique de la d{\'e}tection de textes acad{\'e}miques g{\'e}n{\'e}r{\'e}s automatiquement, principalement dans un souci de pr{\'e}vention de plagiat. Plusieurs {\'e}tudes ont montr{\'e} que les mod{\`e}les de d{\'e}tection actuels ont une pr{\'e}cision {\'e}lev{\'e}e, en donnant l{'}impression que la t{\^a}che soit r{\'e}solue. Cependant, nous avons observ{\'e} que les ensembles de donn{\'e}es utilis{\'e}s pour ces exp{\'e}riences contiennent des textes g{\'e}n{\'e}r{\'e}s automatiquement {\`a} partir de mod{\`e}les pr{\'e}-entra{\^\i}n{\'e}s. Une utilisation plus r{\'e}aliste des mod{\`e}les de langage consisterait {\`a} effectuer un fine-tuning sur un texte {\'e}crit par un humain pour compl{\'e}ter les parties manquantes. Ainsi, nous avons constitu{\'e} un corpus de textes g{\'e}n{\'e}r{\'e}s de mani{\`e}re plus r{\'e}aliste et men{\'e} des exp{\'e}riences avec plusieurs mod{\`e}les de classification. Nos r{\'e}sultats montrent que lorsque les ensembles de donn{\'e}es sont g{\'e}n{\'e}r{\'e}s de mani{\`e}re r{\'e}aliste pour simuler l{'}utilisation de mod{\`e}les de langage par les chercheurs, la d{\'e}tection de ces textes devient une t{\^a}che assez difficile.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="liyanage-buscaldi-2023-la">
<titleInfo>
<title>La détection de textes générés par des modèles de langue : une tâche complexe? Une étude sur des textes académiques</title>
</titleInfo>
<name type="personal">
<namePart type="given">Vijini</namePart>
<namePart type="family">Liyanage</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Davide</namePart>
<namePart type="family">Buscaldi</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de l’atelier “Analyse et Recherche de Textes Scientifiques” (ARTS)@TALN 2023</title>
</titleInfo>
<name type="personal">
<namePart type="given">Florian</namePart>
<namePart type="family">Boudin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Béatrice</namePart>
<namePart type="family">Daille</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Richard</namePart>
<namePart type="family">Dufour</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Oumaima</namePart>
<namePart type="family">El</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Maël</namePart>
<namePart type="family">Houbre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Léane</namePart>
<namePart type="family">Jourdan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihel</namePart>
<namePart type="family">Kooli</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L’émergence de modèles de langage très puissants tels que GPT-3 a sensibilisé les chercheurs à la problématique de la détection de textes académiques générés automatiquement, principalement dans un souci de prévention de plagiat. Plusieurs études ont montré que les modèles de détection actuels ont une précision élevée, en donnant l’impression que la tâche soit résolue. Cependant, nous avons observé que les ensembles de données utilisés pour ces expériences contiennent des textes générés automatiquement à partir de modèles pré-entraînés. Une utilisation plus réaliste des modèles de langage consisterait à effectuer un fine-tuning sur un texte écrit par un humain pour compléter les parties manquantes. Ainsi, nous avons constitué un corpus de textes générés de manière plus réaliste et mené des expériences avec plusieurs modèles de classification. Nos résultats montrent que lorsque les ensembles de données sont générés de manière réaliste pour simuler l’utilisation de modèles de langage par les chercheurs, la détection de ces textes devient une tâche assez difficile.</abstract>
<identifier type="citekey">liyanage-buscaldi-2023-la</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-arts.12</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>71</start>
<end>78</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T La détection de textes générés par des modèles de langue : une tâche complexe? Une étude sur des textes académiques
%A Liyanage, Vijini
%A Buscaldi, Davide
%Y Boudin, Florian
%Y Daille, Béatrice
%Y Dufour, Richard
%Y El, Oumaima
%Y Houbre, Maël
%Y Jourdan, Léane
%Y Kooli, Nihel
%S Actes de CORIA-TALN 2023. Actes de l’atelier “Analyse et Recherche de Textes Scientifiques” (ARTS)@TALN 2023
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F liyanage-buscaldi-2023-la
%X L’émergence de modèles de langage très puissants tels que GPT-3 a sensibilisé les chercheurs à la problématique de la détection de textes académiques générés automatiquement, principalement dans un souci de prévention de plagiat. Plusieurs études ont montré que les modèles de détection actuels ont une précision élevée, en donnant l’impression que la tâche soit résolue. Cependant, nous avons observé que les ensembles de données utilisés pour ces expériences contiennent des textes générés automatiquement à partir de modèles pré-entraînés. Une utilisation plus réaliste des modèles de langage consisterait à effectuer un fine-tuning sur un texte écrit par un humain pour compléter les parties manquantes. Ainsi, nous avons constitué un corpus de textes générés de manière plus réaliste et mené des expériences avec plusieurs modèles de classification. Nos résultats montrent que lorsque les ensembles de données sont générés de manière réaliste pour simuler l’utilisation de modèles de langage par les chercheurs, la détection de ces textes devient une tâche assez difficile.
%U https://aclanthology.org/2023.jeptalnrecital-arts.12
%P 71-78
Markdown (Informal)
[La détection de textes générés par des modèles de langue : une tâche complexe? Une étude sur des textes académiques](https://aclanthology.org/2023.jeptalnrecital-arts.12) (Liyanage & Buscaldi, JEP/TALN/RECITAL 2023)
ACL