Philippe Mulhem


2025

pdf bib
Cadre d’évaluation pour les systèmes de génération augmentée (RAG) : combinaison des performances de recherche d’informations et de LLM
Mohamed-Amine El-Yagouby | Philippe Mulhem | Jean-Pierre Chevallet | Eric Gaussier
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)

Cet article introduit un nouveau cadre d’évaluation pour les systèmes RAG, en comblant les lacunes des approches précédentes. La première phase consiste à concevoir un ensemble de données avec des parties pertinentes extraites pour chaque exemple, représentant les informations nécessaires pour répondre à une question donnée, et à proposer une métrique d’évaluation pour les systèmes IR basée sur la présence de ces parties dans le contenu récupéré. La deuxième phase explore la relation entre le système de RI et les évaluations RAG globales et utilise cette relation pour prédire les performances globales du RAG à partir des performances du SRI. Cette approche élimine le besoin de réponses coûteuses générées par LLM et d’évaluations ultérieures, réduisant ainsi les coûts et fournissant un cadre d’évaluation plus complet et plus robuste pour les systèmes RAG.

pdf bib
Explicabilité par Perturbations pour les Systèmes RAG
Yongxin Zhou | Philippe Mulhem | Didier Schwab
Actes de l'atelier Accès à l’information basé sur le dialogue et grands modèles de langage 2025 (DIAG-LLM)

Les systèmes de Génération Augmentée par Récupération (RAG) ont pour objectif d’améliorer les Grands Modèles de Langage (LLM) en intégrant des informations provenant de sources externes pour générer des réponses, mais leur manque de transparence en terme d’explicabilité soulève des préoccupations, particulièrement dans des domaines tels que la santé, la finance ou le droit. Les méthodes par perturbations fournissent une explicabilité post-hoc, avec des RAG considérés comme des boîtes noires, en modifiant systématiquement les entrées ou documents récupérés pour évaluer la stabilité des réponses et l’attribution des sources. Ce document présente un aperçu de l’explicabilité des systèmes RAG, en se concentrant sur les approches basées sur des exemples et des perturbations. Nous proposons une taxonomie des techniques de perturbation à différents niveaux de granularité, montrant comment elles offrent des indicateurs interprétables sur le comportement des modèles

pdf bib
SuperGPQA-HCE-FR : un corpus spécialisé en français pour le domaine hydraulique et le génie civil
Markarit Vartampetian | Diandra Fabre | Philippe Mulhem | Sylvain Joubert | Didier Schwab
Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)

Dans cet article, nous présentons SuperGPQA-HCE-FR, une adaptation française d’un sous-ensemble du benchmark SuperGPQA axé sur les domaines de l’ingénierie hydraulique et du génie civil. Il comprend 285 questions à choix multiples conçues pour évaluer et spécialiser des modèles de langue multilingues de grande taille (LLMs) sur des tâches techniques. La traduction réalisée automatiquement est ensuite évaluée par des experts des domaines. Enfin, nous présentons les premiers résultats sur des modèles Instruct généralistes multilingues en comparant les performances du corpus original en anglais à celles du corpus traduit en français.

pdf bib
Vers des RAGs intégrant véracité, subjectivité et explicabilité
Alae Bouchiba | Adrian-Gabriel Chifu | Sébastien Fournier | Lorraine Goeuriot | Philippe Mulhem
Actes de l'atelier Intelligence Artificielle générative et ÉDUcation : Enjeux, Défis et Perspectives de Recherche 2025 (IA-ÉDU)

Cet article introduit X-RAG-VS , un cadre pour intégrer véracité , subjectivité et explicabilité dans les systèmes RAG , en réponse aux besoins éducatifs. À travers des cas d’usage et l’analyse de modèles existants , nous montrons que ces dimensions restent insuffisamment prises en compte. Nous proposons une approche unifiée pour des réponses plus fiables , nuancées et explicables.

2023

pdf bib
Entity Enhanced Attention Graph-Based Passages Retrieval
Lucas Albarede | Lorraine Goeuriot | Philippe Mulhem | Claude Le Pape-Gardeux | Sylvain Marie | Trinidad Chardin-Segui
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)

Passage retrieval is crucial in specialized domains where documents are long and complex, such as patents, legal documents, scientific reports, etc. We explore in this paper the integration of Entities and passages in Heterogeneous Attention Graph Models dedicated to passage retrieval. We use the two passage retrieval architectures based on re-ranking proposed in [1]. We experiment our proposal on the TREC CAR Y3 Passage Retrieval Task. The results obtained show an improvement over state-of-the-art techniques and proves the effectiveness of the approach. Our experiments also show the importance of using adequate parameters for such approach.

pdf bib
Vers l’évaluation continue des systèmes de recherche d’information.
Petra Galuscakova | Romain Deveaud | Gabriela Gonzalez-Saez | Philippe Mulhem | Lorraine Goeuriot | Florina Piroi | Martin Popel
Actes de CORIA-TALN 2023. Actes de la 18e Conférence en Recherche d'Information et Applications (CORIA)

Cet article présente le corpus de données associé à la première campagne évaluation LongEval dans le cadre de CLEF 2023. L’objectif de cette évaluation est d’étudier comment les systèmes de recherche d’informations réagissent à l’évolution des données qu’ils manipulent (notamment les documents et les requêtes). Nous détaillons les objectifs de la tâche, le processus d’acquisition des données et les mesures d’évaluation utilisées.

2018

pdf bib
Building Evaluation Datasets for Cultural Microblog Retrieval
Lorraine Goeuriot | Josiane Mothe | Philippe Mulhem | Eric SanJuan
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)