@inproceedings{dubois-etal-2025-mosaic-melange,
title = "{MOSAIC} : M{\'e}lange d{'}experts pour la d{\'e}tection de textes artificiels",
author = "Dubois, Matthieu and
Piantanida, Pablo and
Yvon, Fran{\c{c}}ois",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-taln.31/",
pages = "502--525",
language = "fra",
abstract = "La diffusion aupr{\`e}s du grand public de grands mod{\`e}les de langue facilite la production de contenus nuisibles, m{\'e}disants, malhonn{\^e}tes ou falsifi{\'e}s. En r{\'e}ponse, plusieurs solutions ont {\'e}t{\'e} propos{\'e}es pour identifier les textes ainsi produits, en traitant le probl{\`e}me comme une t{\^a}che de classification binaire. Les premi{\`e}res approches reposent sur l{'}analyse d{'}un document par un mod{\`e}le d{\'e}tecteur, avec l{'}hypoth{\`e}se qu{'}un faible score de perplexit{\'e} indique que le contenu est artificiel. Des m{\'e}thodes plus r{\'e}centes proposent de comparer les distributions de probabilit{\'e} calcul{\'e}es par deux mod{\`e}les. Cependant, s{'}appuyer sur une paire fixe de mod{\`e}les peut fragiliser les performances. Nous {\'e}tendons ces m{\'e}thodes en combinant plusieurs mod{\`e}les et en d{\'e}veloppant une approche th{\'e}oriquement fond{\'e}e pour exploiter au mieux chacun d{'}entre eux."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="dubois-etal-2025-mosaic-melange">
<titleInfo>
<title>MOSAIC : Mélange d’experts pour la détection de textes artificiels</title>
</titleInfo>
<name type="personal">
<namePart type="given">Matthieu</namePart>
<namePart type="family">Dubois</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pablo</namePart>
<namePart type="family">Piantanida</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">François</namePart>
<namePart type="family">Yvon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>La diffusion auprès du grand public de grands modèles de langue facilite la production de contenus nuisibles, médisants, malhonnêtes ou falsifiés. En réponse, plusieurs solutions ont été proposées pour identifier les textes ainsi produits, en traitant le problème comme une tâche de classification binaire. Les premières approches reposent sur l’analyse d’un document par un modèle détecteur, avec l’hypothèse qu’un faible score de perplexité indique que le contenu est artificiel. Des méthodes plus récentes proposent de comparer les distributions de probabilité calculées par deux modèles. Cependant, s’appuyer sur une paire fixe de modèles peut fragiliser les performances. Nous étendons ces méthodes en combinant plusieurs modèles et en développant une approche théoriquement fondée pour exploiter au mieux chacun d’entre eux.</abstract>
<identifier type="citekey">dubois-etal-2025-mosaic-melange</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-taln.31/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>502</start>
<end>525</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T MOSAIC : Mélange d’experts pour la détection de textes artificiels
%A Dubois, Matthieu
%A Piantanida, Pablo
%A Yvon, François
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F dubois-etal-2025-mosaic-melange
%X La diffusion auprès du grand public de grands modèles de langue facilite la production de contenus nuisibles, médisants, malhonnêtes ou falsifiés. En réponse, plusieurs solutions ont été proposées pour identifier les textes ainsi produits, en traitant le problème comme une tâche de classification binaire. Les premières approches reposent sur l’analyse d’un document par un modèle détecteur, avec l’hypothèse qu’un faible score de perplexité indique que le contenu est artificiel. Des méthodes plus récentes proposent de comparer les distributions de probabilité calculées par deux modèles. Cependant, s’appuyer sur une paire fixe de modèles peut fragiliser les performances. Nous étendons ces méthodes en combinant plusieurs modèles et en développant une approche théoriquement fondée pour exploiter au mieux chacun d’entre eux.
%U https://aclanthology.org/2025.jeptalnrecital-taln.31/
%P 502-525
Markdown (Informal)
[MOSAIC : Mélange d’experts pour la détection de textes artificiels](https://aclanthology.org/2025.jeptalnrecital-taln.31/) (Dubois et al., JEP/TALN/RECITAL 2025)
ACL