@inproceedings{lepagnol-etal-2025-detection,
title = "D{\'e}tection des contaminations de {LLM} par extraction de donn{\'e}es : une revue de litt{\'e}rature pratique",
author = "Lepagnol, Pierre and
Gerald, Thomas and
Ghannay, Sahar and
Servan, Christophe and
Rosset, Sophie",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-taln.14/",
pages = "233--251",
language = "fra",
abstract = "Cet {\'e}tat de l{'}art examine le probl{\`e}me de la contamination des donn{\'e}es d{'}entra{\^i}nement dans les grands mod{\`e}les de langue (LLM). Ce ph{\'e}nom{\`e}ne se produit lorsque les mod{\`e}les sont {\'e}valu{\'e}s sur des donn{\'e}es qu{'}ils ont d{\'e}j{\`a} rencontr{\'e}es durant leur entra{\^i}nement, cr{\'e}ant une fausse impression de performance. Cette {\'e}tude propose une synth{\`e}se pratique pour la communaut{\'e} scientifique du traitement automatique des langues (TAL). Nous pr{\'e}sentons un cadre d{'}analyse qui distingue diff{\'e}rents niveaux de contamination ainsi que diff{\'e}rentes m{\'e}thodes class{\'e}es selon l{'}acc{\`e}s au mod{\`e}le (White/Gray/BlackBox) et les techniques utilis{\'e}es (Similarit{\'e}/Probabilit{\'e}/Extraction). Nous explorons particuli{\`e}rement les m{\'e}thodes d{'}extraction de donn{\'e}es de LLM, les approches techniques, les mesures de performance et leurs limites. Dans une perspective pratique, nous avons synth{\'e}tis{\'e} ces m{\'e}thodes sous la forme d{'}un arbre de d{\'e}cision pour s{\'e}lectionner la m{\'e}thode de d{\'e}tection de contamination ad{\'e}quate."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="lepagnol-etal-2025-detection">
<titleInfo>
<title>Détection des contaminations de LLM par extraction de données : une revue de littérature pratique</title>
</titleInfo>
<name type="personal">
<namePart type="given">Pierre</namePart>
<namePart type="family">Lepagnol</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Thomas</namePart>
<namePart type="family">Gerald</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sahar</namePart>
<namePart type="family">Ghannay</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Servan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sophie</namePart>
<namePart type="family">Rosset</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Cet état de l’art examine le problème de la contamination des données d’entraînement dans les grands modèles de langue (LLM). Ce phénomène se produit lorsque les modèles sont évalués sur des données qu’ils ont déjà rencontrées durant leur entraînement, créant une fausse impression de performance. Cette étude propose une synthèse pratique pour la communauté scientifique du traitement automatique des langues (TAL). Nous présentons un cadre d’analyse qui distingue différents niveaux de contamination ainsi que différentes méthodes classées selon l’accès au modèle (White/Gray/BlackBox) et les techniques utilisées (Similarité/Probabilité/Extraction). Nous explorons particulièrement les méthodes d’extraction de données de LLM, les approches techniques, les mesures de performance et leurs limites. Dans une perspective pratique, nous avons synthétisé ces méthodes sous la forme d’un arbre de décision pour sélectionner la méthode de détection de contamination adéquate.</abstract>
<identifier type="citekey">lepagnol-etal-2025-detection</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-taln.14/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>233</start>
<end>251</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Détection des contaminations de LLM par extraction de données : une revue de littérature pratique
%A Lepagnol, Pierre
%A Gerald, Thomas
%A Ghannay, Sahar
%A Servan, Christophe
%A Rosset, Sophie
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F lepagnol-etal-2025-detection
%X Cet état de l’art examine le problème de la contamination des données d’entraînement dans les grands modèles de langue (LLM). Ce phénomène se produit lorsque les modèles sont évalués sur des données qu’ils ont déjà rencontrées durant leur entraînement, créant une fausse impression de performance. Cette étude propose une synthèse pratique pour la communauté scientifique du traitement automatique des langues (TAL). Nous présentons un cadre d’analyse qui distingue différents niveaux de contamination ainsi que différentes méthodes classées selon l’accès au modèle (White/Gray/BlackBox) et les techniques utilisées (Similarité/Probabilité/Extraction). Nous explorons particulièrement les méthodes d’extraction de données de LLM, les approches techniques, les mesures de performance et leurs limites. Dans une perspective pratique, nous avons synthétisé ces méthodes sous la forme d’un arbre de décision pour sélectionner la méthode de détection de contamination adéquate.
%U https://aclanthology.org/2025.jeptalnrecital-taln.14/
%P 233-251
Markdown (Informal)
[Détection des contaminations de LLM par extraction de données : une revue de littérature pratique](https://aclanthology.org/2025.jeptalnrecital-taln.14/) (Lepagnol et al., JEP/TALN/RECITAL 2025)
ACL