CA-GAR: Context-Aware Alignment of LLM Generation for Document Retrieval

Heng Yu; Junfeng Kang; Rui Li; Qi Liu; Liyang He; Zhenya Huang; Shuanghong Shen; Junyu Lu

doi:10.18653/v1/2025.findings-acl.303

CA-GAR: Context-Aware Alignment of LLM Generation for Document Retrieval

Heng Yu, Junfeng Kang, Rui Li, Qi Liu, Liyang He, Zhenya Huang, Shuanghong Shen, Junyu Lu

Abstract

Information retrieval has evolved from traditional sparse and dense retrieval methods to approaches driven by large language models (LLMs). Recent techniques, such as Generation-Augmented Retrieval (GAR) and Generative Document Retrieval (GDR), leverage LLMs to enhance retrieval but face key challenges: GAR’s generated content may not always align with the target document corpus, while GDR limits the generative capacity of LLMs by constraining outputs to predefined document identifiers. To address these issues, we propose Context-Aware Generation-Augmented Retrieval (CA-GAR), which enhances LLMs by integrating corpus information into their generation process. CA-GAR optimizes token selection by incorporating relevant document information and leverages a Distribution Alignment Strategy to extract corpus information using a lexicon-based approach. Experimental evaluations on seven tasks from the BEIR benchmark and four non-English languages from Mr.TyDi demonstrate that CA-GAR outperforms existing methods.

Anthology ID:: 2025.findings-acl.303
Volume:: Findings of the Association for Computational Linguistics: ACL 2025
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 5836–5849
Language:
URL:: https://aclanthology.org/2025.findings-acl.303/
DOI:: 10.18653/v1/2025.findings-acl.303
Bibkey:
Cite (ACL):: Heng Yu, Junfeng Kang, Rui Li, Qi Liu, Liyang He, Zhenya Huang, Shuanghong Shen, and Junyu Lu. 2025. CA-GAR: Context-Aware Alignment of LLM Generation for Document Retrieval. In Findings of the Association for Computational Linguistics: ACL 2025, pages 5836–5849, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: CA-GAR: Context-Aware Alignment of LLM Generation for Document Retrieval (Yu et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-acl.303.pdf

PDF Cite Search Fix data