@inproceedings{tran-etal-2025-generation,
title = "G{\'e}n{\'e}ration augment{\'e}e de r{\'e}cup{\'e}ration pour les journaux historiques",
author = "Tran, Trung and
Gonz{\'a}lez-Gallardo, Carlos-Emiliano and
Doucet, Antoine",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes de la 20e Conf{\'e}rence en Recherche d{'}Information et Applications (CORIA)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-coria.12/",
pages = "131--134",
language = "fra",
abstract = "La num{\'e}risation des archives historiques permet d{'}am{\'e}liorer leur accessibilit{\'e} et leur pr{\'e}servation {\`a} long terme, ouvrant ainsi de nouvelles perspectives de recherche interdisciplinaire. Cependant, l{'}ampleur des donn{\'e}es disponibles pose des d{\'e}fis consid{\'e}rables. Diverses t{\^a}ches de traitement automatique du langage naturel, telles que la reconnaissance d{'}entit{\'e}s nomm{\'e}es et la segmentation en articles, ont permis de faciliter l{'}acc{\`e}s du public en extrayant et structurant l{'}information. N{\'e}anmoins, l{'}agr{\'e}gation des articles de presse historiques demeure largement inexplor{\'e}e. Ce travail met en {\'e}vidence le potentiel d{'}un cadre de g{\'e}n{\'e}ration augment{\'e}e de r{\'e}cup{\'e}ration (RAG), combinant des grands mod{\`e}les de langage, un module de recherche s{\'e}mantique et des bases de connaissances, pour agr{\'e}ger des articles de journaux historiques. Nous proposons {\'e}galement des m{\'e}triques d'{\'e}valuation des syst{\`e}mes g{\'e}n{\'e}ratifs ne n{\'e}cessitant pas de v{\'e}rit{\'e} de terrain. Les premiers r{\'e}sultats de notre cha{\^i}ne de traitement RAG sont prometteurs, d{\'e}montrant que la r{\'e}cup{\'e}ration s{\'e}mantique, renforc{\'e}e par le reranking et la reconnaissance d{'}entit{\'e}s nomm{\'e}es, peut att{\'e}nuer les erreurs d{'}oc{\'e}risation et les fautes de frappe dans les requ{\^e}tes."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="tran-etal-2025-generation">
<titleInfo>
<title>Génération augmentée de récupération pour les journaux historiques</title>
</titleInfo>
<name type="personal">
<namePart type="given">Trung</namePart>
<namePart type="family">Tran</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Carlos-Emiliano</namePart>
<namePart type="family">González-Gallardo</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Antoine</namePart>
<namePart type="family">Doucet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>La numérisation des archives historiques permet d’améliorer leur accessibilité et leur préservation à long terme, ouvrant ainsi de nouvelles perspectives de recherche interdisciplinaire. Cependant, l’ampleur des données disponibles pose des défis considérables. Diverses tâches de traitement automatique du langage naturel, telles que la reconnaissance d’entités nommées et la segmentation en articles, ont permis de faciliter l’accès du public en extrayant et structurant l’information. Néanmoins, l’agrégation des articles de presse historiques demeure largement inexplorée. Ce travail met en évidence le potentiel d’un cadre de génération augmentée de récupération (RAG), combinant des grands modèles de langage, un module de recherche sémantique et des bases de connaissances, pour agréger des articles de journaux historiques. Nous proposons également des métriques d’évaluation des systèmes génératifs ne nécessitant pas de vérité de terrain. Les premiers résultats de notre chaîne de traitement RAG sont prometteurs, démontrant que la récupération sémantique, renforcée par le reranking et la reconnaissance d’entités nommées, peut atténuer les erreurs d’océrisation et les fautes de frappe dans les requêtes.</abstract>
<identifier type="citekey">tran-etal-2025-generation</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-coria.12/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>131</start>
<end>134</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Génération augmentée de récupération pour les journaux historiques
%A Tran, Trung
%A González-Gallardo, Carlos-Emiliano
%A Doucet, Antoine
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F tran-etal-2025-generation
%X La numérisation des archives historiques permet d’améliorer leur accessibilité et leur préservation à long terme, ouvrant ainsi de nouvelles perspectives de recherche interdisciplinaire. Cependant, l’ampleur des données disponibles pose des défis considérables. Diverses tâches de traitement automatique du langage naturel, telles que la reconnaissance d’entités nommées et la segmentation en articles, ont permis de faciliter l’accès du public en extrayant et structurant l’information. Néanmoins, l’agrégation des articles de presse historiques demeure largement inexplorée. Ce travail met en évidence le potentiel d’un cadre de génération augmentée de récupération (RAG), combinant des grands modèles de langage, un module de recherche sémantique et des bases de connaissances, pour agréger des articles de journaux historiques. Nous proposons également des métriques d’évaluation des systèmes génératifs ne nécessitant pas de vérité de terrain. Les premiers résultats de notre chaîne de traitement RAG sont prometteurs, démontrant que la récupération sémantique, renforcée par le reranking et la reconnaissance d’entités nommées, peut atténuer les erreurs d’océrisation et les fautes de frappe dans les requêtes.
%U https://aclanthology.org/2025.jeptalnrecital-coria.12/
%P 131-134
Markdown (Informal)
[Génération augmentée de récupération pour les journaux historiques](https://aclanthology.org/2025.jeptalnrecital-coria.12/) (Tran et al., JEP/TALN/RECITAL 2025)
ACL