@inproceedings{martinon-etal-2025-vers,
title = "Vers une {\'e}valuation rigoureuse des syst{\`e}mes {RAG} : le d{\'e}fi de la due diligence",
author = "Martinon, Gr{\'e}goire and
De Brionne Lorenzo, Alexandra and
Bohard, J{\'e}r{\^o}me and
Lojou, Antoine and
Hervault, Damien and
Brunel, Nicolas",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de l'atelier {\'E}valuation des mod{\`e}les g{\'e}n{\'e}ratifs (LLM) et challenge 2025 (EvalLLM)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-evalllm.22/",
pages = "291--308",
language = "fra",
abstract = "L{'}IA g{\'e}n{\'e}rative se d{\'e}ploie dans des secteurs {\`a} haut risque comme la sant{\'e} et la finance. L{'}architecture RAG (Retrieval Augmented Generation), qui combine mod{\`e}les de langage (LLM) et moteurs de recherche, se distingue par sa capacit{\'e} {\`a} g{\'e}n{\'e}rer des r{\'e}ponses {\`a} partir de corpus documentaires. Cependant, la fiabilit{\'e} de ces syst{\`e}mes en contextes critiques demeure pr{\'e}occupante, notamment avec des hallucinations persistantes. Cette {\'e}tude {\'e}value un syst{\`e}me RAG d{\'e}ploy{\'e} chez un fonds d{'}investissement pour assister les due diligence. Nous proposons un protocole d'{\'e}valuation robuste combinant annotations humaines et LLM-Juge pour qualifier les d{\'e}faillances du syst{\`e}me, comme les hallucinations, les hors-sujets, les citations d{\'e}faillantes ou les abstentions. Inspir{\'e}s par la m{\'e}thode Prediction Powered Inference (PPI), nous obtenons des mesures de performance robustes avec garanties statistiques. Nous fournissons le jeu de donn{\'e}es complet. Nos contributions visent {\`a} am{\'e}liorer la fiabilit{\'e} et la scalabilit{\'e} des protocoles d'{\'e}valuations de syst{\`e}mes RAG en contexte industriel."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="martinon-etal-2025-vers">
<titleInfo>
<title>Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence</title>
</titleInfo>
<name type="personal">
<namePart type="given">Grégoire</namePart>
<namePart type="family">Martinon</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Alexandra</namePart>
<namePart type="family">De Brionne Lorenzo</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jérôme</namePart>
<namePart type="family">Bohard</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Antoine</namePart>
<namePart type="family">Lojou</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Damien</namePart>
<namePart type="family">Hervault</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nicolas</namePart>
<namePart type="family">Brunel</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L’IA générative se déploie dans des secteurs à haut risque comme la santé et la finance. L’architecture RAG (Retrieval Augmented Generation), qui combine modèles de langage (LLM) et moteurs de recherche, se distingue par sa capacité à générer des réponses à partir de corpus documentaires. Cependant, la fiabilité de ces systèmes en contextes critiques demeure préoccupante, notamment avec des hallucinations persistantes. Cette étude évalue un système RAG déployé chez un fonds d’investissement pour assister les due diligence. Nous proposons un protocole d’évaluation robuste combinant annotations humaines et LLM-Juge pour qualifier les défaillances du système, comme les hallucinations, les hors-sujets, les citations défaillantes ou les abstentions. Inspirés par la méthode Prediction Powered Inference (PPI), nous obtenons des mesures de performance robustes avec garanties statistiques. Nous fournissons le jeu de données complet. Nos contributions visent à améliorer la fiabilité et la scalabilité des protocoles d’évaluations de systèmes RAG en contexte industriel.</abstract>
<identifier type="citekey">martinon-etal-2025-vers</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-evalllm.22/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>291</start>
<end>308</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence
%A Martinon, Grégoire
%A De Brionne Lorenzo, Alexandra
%A Bohard, Jérôme
%A Lojou, Antoine
%A Hervault, Damien
%A Brunel, Nicolas
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de l’atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F martinon-etal-2025-vers
%X L’IA générative se déploie dans des secteurs à haut risque comme la santé et la finance. L’architecture RAG (Retrieval Augmented Generation), qui combine modèles de langage (LLM) et moteurs de recherche, se distingue par sa capacité à générer des réponses à partir de corpus documentaires. Cependant, la fiabilité de ces systèmes en contextes critiques demeure préoccupante, notamment avec des hallucinations persistantes. Cette étude évalue un système RAG déployé chez un fonds d’investissement pour assister les due diligence. Nous proposons un protocole d’évaluation robuste combinant annotations humaines et LLM-Juge pour qualifier les défaillances du système, comme les hallucinations, les hors-sujets, les citations défaillantes ou les abstentions. Inspirés par la méthode Prediction Powered Inference (PPI), nous obtenons des mesures de performance robustes avec garanties statistiques. Nous fournissons le jeu de données complet. Nos contributions visent à améliorer la fiabilité et la scalabilité des protocoles d’évaluations de systèmes RAG en contexte industriel.
%U https://aclanthology.org/2025.jeptalnrecital-evalllm.22/
%P 291-308
Markdown (Informal)
[Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence](https://aclanthology.org/2025.jeptalnrecital-evalllm.22/) (Martinon et al., JEP/TALN/RECITAL 2025)
ACL