@inproceedings{huang-etal-2025-approche,
title = "Approche m{\'e}thodologique pour la g{\'e}n{\'e}ration de question-r{\'e}ponse portant sur plusieurs documents",
author = "Huang, Hui and
Velcin, Julien and
Kessaci, Yacine",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de la 20e Conf{\'e}rence en Recherche d{'}Information et Applications (CORIA)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-coria.3/",
pages = "21--30",
language = "fra",
abstract = "Les syst{\`e}mes de questions-r{\'e}ponses (QA) actuels ont du mal {\`a} synth{\'e}tiser les preuves dispers{\'e}es dans les documents. Alors que les jeux de donn{\'e}es QA scientifiques existants se concentrent sur le raisonnement portant sur un document seul, la t{\^a}che de recherche peut exiger l{'}int{\'e}gration de contenus provenant de plusieurs articles. Pour r{\'e}pondre {\`a} cette limitation, nous proposons un cadre pour cr{\'e}er un jeu de donn{\'e}es QA multi-documents qui s{'}appuie sur l{'}analyse de graphes de citations afin de regrouper des articles connexes et utilise un grand mod{\`e}le de langage (LLM) pour g{\'e}n{\'e}rer des questions complexes. Des exp{\'e}riences pr{\'e}liminaires r{\'e}alis{\'e}es sur 23 882 articles d{\'e}montrent la faisabilit{\'e} de ce cadre, produisant 238 paires QA qui n{\'e}cessitent une synth{\`e}se sur plusieurs articles. D{'}autres exp{\'e}riences indiquent que la recherche d{'}information dense actuelle obtient un rappel limit{\'e} pour ces questions multi-documents, soulignant le besoin de m{\'e}canismes de recherche d{'}information et de raisonnement plus avanc{\'e}s. Il s{'}agit d{'}un projet en cours d'{\'e}laboration. Nous visons {\`a} terme {\`a} fournir un jeu de donn{\'e}es QA robuste qui capture la complexit{\'e} et la nature interconnect{\'e}e des publications scientifiques, ouvrant la voie {\`a} des {\'e}valuations plus r{\'e}alistes des syst{\`e}mes de QA."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="huang-etal-2025-approche">
<titleInfo>
<title>Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents</title>
</titleInfo>
<name type="personal">
<namePart type="given">Hui</namePart>
<namePart type="family">Huang</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Velcin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Yacine</namePart>
<namePart type="family">Kessaci</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les systèmes de questions-réponses (QA) actuels ont du mal à synthétiser les preuves dispersées dans les documents. Alors que les jeux de données QA scientifiques existants se concentrent sur le raisonnement portant sur un document seul, la tâche de recherche peut exiger l’intégration de contenus provenant de plusieurs articles. Pour répondre à cette limitation, nous proposons un cadre pour créer un jeu de données QA multi-documents qui s’appuie sur l’analyse de graphes de citations afin de regrouper des articles connexes et utilise un grand modèle de langage (LLM) pour générer des questions complexes. Des expériences préliminaires réalisées sur 23 882 articles démontrent la faisabilité de ce cadre, produisant 238 paires QA qui nécessitent une synthèse sur plusieurs articles. D’autres expériences indiquent que la recherche d’information dense actuelle obtient un rappel limité pour ces questions multi-documents, soulignant le besoin de mécanismes de recherche d’information et de raisonnement plus avancés. Il s’agit d’un projet en cours d’élaboration. Nous visons à terme à fournir un jeu de données QA robuste qui capture la complexité et la nature interconnectée des publications scientifiques, ouvrant la voie à des évaluations plus réalistes des systèmes de QA.</abstract>
<identifier type="citekey">huang-etal-2025-approche</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-coria.3/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>21</start>
<end>30</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents
%A Huang, Hui
%A Velcin, Julien
%A Kessaci, Yacine
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F huang-etal-2025-approche
%X Les systèmes de questions-réponses (QA) actuels ont du mal à synthétiser les preuves dispersées dans les documents. Alors que les jeux de données QA scientifiques existants se concentrent sur le raisonnement portant sur un document seul, la tâche de recherche peut exiger l’intégration de contenus provenant de plusieurs articles. Pour répondre à cette limitation, nous proposons un cadre pour créer un jeu de données QA multi-documents qui s’appuie sur l’analyse de graphes de citations afin de regrouper des articles connexes et utilise un grand modèle de langage (LLM) pour générer des questions complexes. Des expériences préliminaires réalisées sur 23 882 articles démontrent la faisabilité de ce cadre, produisant 238 paires QA qui nécessitent une synthèse sur plusieurs articles. D’autres expériences indiquent que la recherche d’information dense actuelle obtient un rappel limité pour ces questions multi-documents, soulignant le besoin de mécanismes de recherche d’information et de raisonnement plus avancés. Il s’agit d’un projet en cours d’élaboration. Nous visons à terme à fournir un jeu de données QA robuste qui capture la complexité et la nature interconnectée des publications scientifiques, ouvrant la voie à des évaluations plus réalistes des systèmes de QA.
%U https://aclanthology.org/2025.jeptalnrecital-coria.3/
%P 21-30
Markdown (Informal)
[Approche méthodologique pour la génération de question-réponse portant sur plusieurs documents](https://aclanthology.org/2025.jeptalnrecital-coria.3/) (Huang et al., JEP/TALN/RECITAL 2025)
ACL