UniRAG: Universal Retrieval Augmentation for Large Vision Language Models

Sahel Sharifymoghaddam; Shivani Upadhyay; Wenhu Chen; Jimmy Lin

doi:10.18653/v1/2025.findings-naacl.108

UniRAG: Universal Retrieval Augmentation for Large Vision Language Models

Sahel Sharifymoghaddam, Shivani Upadhyay, Wenhu Chen, Jimmy Lin

Abstract

Recently, Large Vision Language Models (LVLMs) have unlocked many complex use cases that require Multi-Modal (MM) understanding (e.g., image captioning or visual question answering) and MM generation (e.g., text-guided image generation or editing) capabilities. To further improve the output fidelity of LVLMs we introduce UniRAG, a plug-and-play technique that adds relevant retrieved information to prompts as few-shot examples during inference. Unlike the common belief that Retrieval Augmentation (RA) mainly improves generation or understanding of uncommon entities, our evaluation results on the MSCOCO dataset with common entities show that both proprietary models like GPT-4o and Gemini-Pro and smaller open-source models like LLaVA, LaVIT, and Emu2 significantly enhance their generation quality when their input prompts are augmented with relevant information retrieved by Vision-Language (VL) retrievers like UniIR models. All the necessary code to reproduce our results is available at https://github.com/castorini/UniRAG.

Anthology ID:: 2025.findings-naacl.108
Volume:: Findings of the Association for Computational Linguistics: NAACL 2025
Month:: April
Year:: 2025
Address:: Albuquerque, New Mexico
Editors:: Luis Chiruzzo, Alan Ritter, Lu Wang
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 2026–2039
Language:
URL:: https://aclanthology.org/2025.findings-naacl.108/
DOI:: 10.18653/v1/2025.findings-naacl.108
Bibkey:
Cite (ACL):: Sahel Sharifymoghaddam, Shivani Upadhyay, Wenhu Chen, and Jimmy Lin. 2025. UniRAG: Universal Retrieval Augmentation for Large Vision Language Models. In Findings of the Association for Computational Linguistics: NAACL 2025, pages 2026–2039, Albuquerque, New Mexico. Association for Computational Linguistics.
Cite (Informal):: UniRAG: Universal Retrieval Augmentation for Large Vision Language Models (Sharifymoghaddam et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-naacl.108.pdf

PDF Cite Search Fix data