Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Hao Sun; Yingyan Hou; Jiayan Guo; Bo Wang; Chunyu Yang; Jinsong Ni; Yan Zhang

doi:10.18653/v1/2025.acl-long.1166

Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval

Hao Sun, Yingyan Hou, Jiayan Guo, Bo Wang, Chunyu Yang, Jinsong Ni, Yan Zhang

Abstract

Document retrieval in real-world scenarios faces significant challenges due to diverse document formats and modalities. Traditional text-based approaches rely on tailored parsing techniques that disregard layout information and are prone to errors, while recent parsing-free visual methods often struggle to capture fine-grained textual semantics in text-rich scenarios. To address these limitations, we propose Unveil, a novel visual-textual embedding framework that effectively integrates textual and visual features for robust document representation. Through knowledge distillation, we transfer the semantic understanding capabilities from the visual-textual embedding model to a purely visual model, enabling efficient parsing-free retrieval while preserving semantic fidelity. Experimental results demonstrate that our visual-textual embedding method surpasses existing approaches, while knowledge distillation successfully bridges the performance gap between visual-textual and visual-only methods, improving both retrieval accuracy and efficiency.

Anthology ID:: 2025.acl-long.1166
Volume:: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 23935–23945
Language:
URL:: https://aclanthology.org/2025.acl-long.1166/
DOI:: 10.18653/v1/2025.acl-long.1166
Bibkey:
Cite (ACL):: Hao Sun, Yingyan Hou, Jiayan Guo, Bo Wang, Chunyu Yang, Jinsong Ni, and Yan Zhang. 2025. Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 23935–23945, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: Unveil: Unified Visual-Textual Integration and Distillation for Multi-modal Document Retrieval (Sun et al., ACL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.acl-long.1166.pdf

PDF Cite Search Fix data