Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents

Hui Huang, Julien Velcin, Yacine Kessaci


Abstract
Les systèmes de questions-réponses (QA) actuels ont du mal à synthétiser les preuves dispersées dans les documents. Alors que les jeux de données QA scientifiques existants se concentrent sur le raisonnement portant sur un document seul, la tâche de recherche peut exiger l’intégration de contenus provenant de plusieurs articles. Pour répondre à cette limitation, nous proposons un cadre pour créer un jeu de données QA multi-documents qui s’appuie sur l’analyse de graphes de citations afin de regrouper des articles connexes et utilise un grand modèle de langage (LLM) pour générer des questions complexes. Des expériences préliminaires réalisées sur 23 882 articles démontrent la faisabilité de ce cadre, produisant 238 paires QA qui nécessitent une synthèse sur plusieurs articles. D’autres expériences indiquent que la recherche d’information dense actuelle obtient un rappel limité pour ces questions multi-documents, soulignant le besoin de mécanismes de recherche d’information et de raisonnement plus avancés. Il s’agit d’un projet en cours d’élaboration. Nous visons à terme à fournir un jeu de données QA robuste qui capture la complexité et la nature interconnectée des publications scientifiques, ouvrant la voie à des évaluations plus réalistes des systèmes de QA.
Anthology ID:
2025.jeptalnrecital-coria.3
Volume:
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)
Month:
6
Year:
2025
Address:
Marseille, France
Editors:
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
Note:
Pages:
21–30
Language:
French
URL:
https://aclanthology.org/2025.jeptalnrecital-coria.3/
DOI:
Bibkey:
Cite (ACL):
Hui Huang, Julien Velcin, and Yacine Kessaci. 2025. Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents. In Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA), pages 21–30, Marseille, France. ATALA \\& ARIA.
Cite (Informal):
Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents (Huang et al., JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:
https://aclanthology.org/2025.jeptalnrecital-coria.3.pdf