Mohamed-Amine El-Yagouby
Also published as: Mohamed Amine El Yagouby
2025
Cadre d’évaluation pour les systèmes de génération augmentée (RAG) : combinaison des performances de recherche d’informations et de LLM
Mohamed-Amine El-Yagouby
|
Philippe Mulhem
|
Jean-Pierre Chevallet
|
Eric Gaussier
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)
Cet article introduit un nouveau cadre d’évaluation pour les systèmes RAG, en comblant les lacunes des approches précédentes. La première phase consiste à concevoir un ensemble de données avec des parties pertinentes extraites pour chaque exemple, représentant les informations nécessaires pour répondre à une question donnée, et à proposer une métrique d’évaluation pour les systèmes IR basée sur la présence de ces parties dans le contenu récupéré. La deuxième phase explore la relation entre le système de RI et les évaluations RAG globales et utilise cette relation pour prédire les performances globales du RAG à partir des performances du SRI. Cette approche élimine le besoin de réponses coûteuses générées par LLM et d’évaluations ultérieures, réduisant ainsi les coûts et fournissant un cadre d’évaluation plus complet et plus robuste pour les systèmes RAG.
Evaluating LLMs Efficiency Using Successive Attempts on Binary-Outcome Tasks
Mohamed Amine El Yagouby
|
Mehdi Zekroum
|
Abdelkader Lahmadi
|
Mounir Ghogho
|
Olivier Festor
Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
Evaluating Large Language Models (LLMs) using single-attempt metrics like Success Rate (SR) overlooks their capacity for iterative problem solving. In tasks with binary outcomes (success or failure), such as coding or planning, LLMs often benefit from multiple attempts. Existing multiattempt metrics like pass@k and success@k account for eventual success but ignore how efficiently it is achieved, making them more costly. We propose a new evaluation method with Successive Multiple Attempts, where a maximum number of retries is fixed, and introduce our Success Efficiency (SE) metric, which captures both success and efficiency in a single value by rewarding earlier successes and penalizing delays. Tested using the HumanEval dataset across six LLMs, SE captures how quickly an LLM solves tasks, which existing metrics do not offer. This work complements existing evaluation methods by measuring not only whether LLMs succeed but also how efficiently they do so.
Search
Fix author
Co-authors
- Jean-Pierre Chevallet 1
- Olivier Festor 1
- Eric Gaussier 1
- Mounir Ghogho 1
- Abdelkader Lahmadi 1
- show all...