@inproceedings{mallet-etal-2025-repousser,
title = "Repousser les limites des benchmarks actuels pour une {\'e}valuation r{\'e}aliste des {LLM}s en migration de code",
author = "Mallet, Samuel and
El Khoury, Joe and
Egyed-Zsigmond, El{\~o}d",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-taln.41/",
pages = "682--696",
language = "fra",
abstract = "Les grands mod{\`e}les de langage (LLMs) offrent un potentiel important pour la migration de code, mais les benchmarks actuels cr{\'e}ent une illusion de ma{\^i}trise ne se traduisant pas par de bonnes performances sur des projets industriels complexes. Bien que des avanc{\'e}es comme RepoTransBench incluent des t{\^a}ches {\`a} l'{\'e}chelle de d{\'e}p{\^o}ts complets, ces benchmarks restent irr{\'e}alistes : taille de projet trop limit{\'e}e, gestion simplifi{\'e}e des d{\'e}pendances, faible diversit{\'e} technologique et absence de g{\'e}n{\'e}ration ou adaptation automatique des tests. Dans cet article, nous analysons ces limites et nous sugg{\'e}rons de s{'}inspirer d{'}approches existantes dans des contextes monolingues, notamment la gestion des contextes longs et la g{\'e}n{\'e}ration automatique de tests, pour concevoir des benchmarks de migration plus r{\'e}alistes. Notre contribution vise {\`a} encourager la communaut{\'e} {\`a} d{\'e}velopper des {\'e}valuations plus repr{\'e}sentatives des d{\'e}fis industriels."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="mallet-etal-2025-repousser">
<titleInfo>
<title>Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code</title>
</titleInfo>
<name type="personal">
<namePart type="given">Samuel</namePart>
<namePart type="family">Mallet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Joe</namePart>
<namePart type="family">El Khoury</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Elõd</namePart>
<namePart type="family">Egyed-Zsigmond</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les grands modèles de langage (LLMs) offrent un potentiel important pour la migration de code, mais les benchmarks actuels créent une illusion de maîtrise ne se traduisant pas par de bonnes performances sur des projets industriels complexes. Bien que des avancées comme RepoTransBench incluent des tâches à l’échelle de dépôts complets, ces benchmarks restent irréalistes : taille de projet trop limitée, gestion simplifiée des dépendances, faible diversité technologique et absence de génération ou adaptation automatique des tests. Dans cet article, nous analysons ces limites et nous suggérons de s’inspirer d’approches existantes dans des contextes monolingues, notamment la gestion des contextes longs et la génération automatique de tests, pour concevoir des benchmarks de migration plus réalistes. Notre contribution vise à encourager la communauté à développer des évaluations plus représentatives des défis industriels.</abstract>
<identifier type="citekey">mallet-etal-2025-repousser</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-taln.41/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>682</start>
<end>696</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code
%A Mallet, Samuel
%A El Khoury, Joe
%A Egyed-Zsigmond, Elõd
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F mallet-etal-2025-repousser
%X Les grands modèles de langage (LLMs) offrent un potentiel important pour la migration de code, mais les benchmarks actuels créent une illusion de maîtrise ne se traduisant pas par de bonnes performances sur des projets industriels complexes. Bien que des avancées comme RepoTransBench incluent des tâches à l’échelle de dépôts complets, ces benchmarks restent irréalistes : taille de projet trop limitée, gestion simplifiée des dépendances, faible diversité technologique et absence de génération ou adaptation automatique des tests. Dans cet article, nous analysons ces limites et nous suggérons de s’inspirer d’approches existantes dans des contextes monolingues, notamment la gestion des contextes longs et la génération automatique de tests, pour concevoir des benchmarks de migration plus réalistes. Notre contribution vise à encourager la communauté à développer des évaluations plus représentatives des défis industriels.
%U https://aclanthology.org/2025.jeptalnrecital-taln.41/
%P 682-696
Markdown (Informal)
[Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code](https://aclanthology.org/2025.jeptalnrecital-taln.41/) (Mallet et al., JEP/TALN/RECITAL 2025)
ACL