Joe El Khoury


2025

pdf bib
Repousser les limites des benchmarks actuels pour une évaluation réaliste des LLMs en migration de code
Samuel Mallet | Joe El Khoury | Elõd Egyed-Zsigmond
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

Les grands modèles de langage (LLMs) offrent un potentiel important pour la migration de code, mais les benchmarks actuels créent une illusion de maîtrise ne se traduisant pas par de bonnes performances sur des projets industriels complexes. Bien que des avancées comme RepoTransBench incluent des tâches à l’échelle de dépôts complets, ces benchmarks restent irréalistes : taille de projet trop limitée, gestion simplifiée des dépendances, faible diversité technologique et absence de génération ou adaptation automatique des tests. Dans cet article, nous analysons ces limites et nous suggérons de s’inspirer d’approches existantes dans des contextes monolingues, notamment la gestion des contextes longs et la génération automatique de tests, pour concevoir des benchmarks de migration plus réalistes. Notre contribution vise à encourager la communauté à développer des évaluations plus représentatives des défis industriels.