Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence

Grégoire Martinon; Alexandra De Brionne Lorenzo; Jérôme Bohard; Antoine Lojou; Damien Hervault; Nicolas Brunel

Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence

Grégoire Martinon, Alexandra De Brionne Lorenzo, Jérôme Bohard, Antoine Lojou, Damien Hervault, Nicolas Brunel

Abstract

L’IA générative se déploie dans des secteurs à haut risque comme la santé et la finance. L’architecture RAG (Retrieval Augmented Generation), qui combine modèles de langage (LLM) et moteurs de recherche, se distingue par sa capacité à générer des réponses à partir de corpus documentaires. Cependant, la fiabilité de ces systèmes en contextes critiques demeure préoccupante, notamment avec des hallucinations persistantes. Cette étude évalue un système RAG déployé chez un fonds d’investissement pour assister les due diligence. Nous proposons un protocole d’évaluation robuste combinant annotations humaines et LLM-Juge pour qualifier les défaillances du système, comme les hallucinations, les hors-sujets, les citations défaillantes ou les abstentions. Inspirés par la méthode Prediction Powered Inference (PPI), nous obtenons des mesures de performance robustes avec garanties statistiques. Nous fournissons le jeu de données complet. Nos contributions visent à améliorer la fiabilité et la scalabilité des protocoles d’évaluations de systèmes RAG en contexte industriel.

Anthology ID:: 2025.jeptalnrecital-evalllm.22
Volume:: Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
Month:: 6
Year:: 2025
Address:: Marseille, France
Editors:: Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
Note:
Pages:: 291–308
Language:: French
URL:: https://aclanthology.org/2025.jeptalnrecital-evalllm.22/
DOI:
Bibkey:
Cite (ACL):: Grégoire Martinon, Alexandra De Brionne Lorenzo, Jérôme Bohard, Antoine Lojou, Damien Hervault, and Nicolas Brunel. 2025. Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence. In Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM), pages 291–308, Marseille, France. ATALA \\& ARIA.
Cite (Informal):: Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence (Martinon et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.jeptalnrecital-evalllm.22.pdf

PDF Cite Search Fix data