Efficient Dynamic Clustering-Based Document Compression for Retrieval-Augmented-Generation

Weitao Li; Xiangyu Zhang; Kaiming Liu; Xuanyu Lei; Weizhi Ma; Yang Liu

doi:10.18653/v1/2025.findings-emnlp.522

Efficient Dynamic Clustering-Based Document Compression for Retrieval-Augmented-Generation

Weitao Li, Xiangyu Zhang, Kaiming Liu, Xuanyu Lei, Weizhi Ma, Yang Liu

Abstract

Retrieval-Augmented Generation (RAG) has emerged as a widely adopted approach for knowledge injection during large language model (LLM) inference in recent years. However, due to their limited ability to exploit fine-grained inter-document relationships, current RAG implementations face challenges in effectively addressing the retrieved noise and redundancy content, which may cause error in the generation results. To address these limitations, we propose an **E**fficient **D**ynamic **C**lustering-based document **C**ompression framework (**EDC²-RAG**) that utilizes latent inter-document relationships while simultaneously removing irrelevant information and redundant content. We validate our approach, built upon GPT-3.5-Turbo and GPT-4o-mini, on widely used knowledge-QA and Hallucination-Detection datasets. Experimental results show that our method achieves consistent performance improvements across various scenarios and experimental settings, demonstrating strong robustness and applicability. Our code and datasets are available at https://github.com/Tsinghua-dhy/EDC-2-RAG.

Anthology ID:: 2025.findings-emnlp.522
Volume:: Findings of the Association for Computational Linguistics: EMNLP 2025
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 9833–9849
Language:
URL:: https://aclanthology.org/2025.findings-emnlp.522/
DOI:: 10.18653/v1/2025.findings-emnlp.522
Bibkey:
Cite (ACL):: Weitao Li, Xiangyu Zhang, Kaiming Liu, Xuanyu Lei, Weizhi Ma, and Yang Liu. 2025. Efficient Dynamic Clustering-Based Document Compression for Retrieval-Augmented-Generation. In Findings of the Association for Computational Linguistics: EMNLP 2025, pages 9833–9849, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: Efficient Dynamic Clustering-Based Document Compression for Retrieval-Augmented-Generation (Li et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-emnlp.522.pdf
Checklist:: 2025.findings-emnlp.522.checklist.pdf

PDF Cite Search Checklist Fix data