生成式信息检索前沿进展与挑战(Challenges and Advances in Generative Information Retrieval)

Yixing Fan (意兴 范), Yubao Tang (钰葆 唐), Jiangui Chen (建贵 陈), Ruqing Zhang (儒清 张), Jiafeng Guo (嘉丰 郭)


Abstract
“信息检索(Information Retrieval, IR)旨在从大规模的语料集合中找到与用户查询相关的信息,已经成为人们解决日常工作和生活中问题的最重要工具之一。现有的IR系统主要依赖于“索引-召回-重排”的框架,将复杂的检索任务建模成多阶段耦合的搜索过程。这种解耦建模的方式,一方面提升了系统检索的效率,使得检索系统能够轻松应对数十亿的语料集合;另一方面也加重了系统架构的复杂性,无法实现端到端联合优化。为了应对这个问题,近年来研究人员开始探索利用一个统一的模型建模整个搜索过程,并提出了新的生成式信息检索范式,这种新的范式将整个语料集合编码到检索模型中,可以实现端到端优化,消除了检索系统对于外部索引的依赖。当前,生成式检索已经成为坉坒领域热门研究方向之一,研究人员提出了不同的方案来提升检索的效果,考虑到这个方向的快速进展,本文将对生成式信息检索进行系统的综述,包括基础概念,文档标识符和模型容量。此外,我们还讨论了一些未解决的挑战以及有前景的研究方向,希望能激发和促进更多关于这些主题的未来研究。”
Anthology ID:
2023.ccl-2.5
Volume:
Proceedings of the 22nd Chinese National Conference on Computational Linguistics (Volume 2: Frontier Forum)
Month:
August
Year:
2023
Address:
Harbin, China
Editor:
Jiajun Zhang
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
57–66
Language:
Chinese
URL:
https://aclanthology.org/2023.ccl-2.5
DOI:
Bibkey:
Cite (ACL):
Yixing Fan, Yubao Tang, Jiangui Chen, Ruqing Zhang, and Jiafeng Guo. 2023. 生成式信息检索前沿进展与挑战(Challenges and Advances in Generative Information Retrieval). In Proceedings of the 22nd Chinese National Conference on Computational Linguistics (Volume 2: Frontier Forum), pages 57–66, Harbin, China. Chinese Information Processing Society of China.
Cite (Informal):
生成式信息检索前沿进展与挑战(Challenges and Advances in Generative Information Retrieval) (Fan et al., CCL 2023)
Copy Citation:
PDF:
https://aclanthology.org/2023.ccl-2.5.pdf