Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code

Samuel Mallet; Joe El Khoury; Elöd Egyed-Zsigmond

Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code

Samuel Mallet, Joe El Khoury, Elõd Egyed-Zsigmond

Abstract

Les grands modèles de langage (LLMs) offrent un potentiel important pour la migration de code, mais les benchmarks actuels créent une illusion de maîtrise ne se traduisant pas par de bonnes performances sur des projets industriels complexes. Bien que des avancées comme RepoTransBench incluent des tâches à l’échelle de dépôts complets, ces benchmarks restent irréalistes : taille de projet trop limitée, gestion simplifiée des dépendances, faible diversité technologique et absence de génération ou adaptation automatique des tests. Dans cet article, nous analysons ces limites et nous suggérons de s’inspirer d’approches existantes dans des contextes monolingues, notamment la gestion des contextes longs et la génération automatique de tests, pour concevoir des benchmarks de migration plus réalistes. Notre contribution vise à encourager la communauté à développer des évaluations plus représentatives des défis industriels.

Anthology ID:: 2025.jeptalnrecital-taln.41
Volume:: Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
Month:: 6
Year:: 2025
Address:: Marseille, France
Editors:: Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
Note:
Pages:: 682–696
Language:: French
URL:: https://aclanthology.org/2025.jeptalnrecital-taln.41/
DOI:
Bibkey:
Cite (ACL):: Samuel Mallet, Joe El Khoury, and Elõd Egyed-Zsigmond. 2025. Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code. In Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux, pages 682–696, Marseille, France. ATALA \\& ARIA.
Cite (Informal):: Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code (Mallet et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.jeptalnrecital-taln.41.pdf

PDF Cite Search Fix data