LATTE: Learning to Think with Vision Specialists

Zixian Ma; Jianguo Zhang; Zhiwei Liu; Jieyu Zhang; Juntao Tan; Manli Shu; Juan Carlos Niebles; Shelby Heinecke; Huan Wang; Caiming Xiong; Ranjay Krishna; Silvio Savarese

doi:10.18653/v1/2025.emnlp-main.564

LATTE: Learning to Think with Vision Specialists

Zixian Ma, Jianguo Zhang, Zhiwei Liu, Jieyu Zhang, Juntao Tan, Manli Shu, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Caiming Xiong, Ranjay Krishna, Silvio Savarese

Abstract

While open-source vision-language models perform well on simple question-answering, they still struggle with complex questions that require both perceptual and reasoning capabilities. We propose LATTE, a family of vision-language models that have LeArned to Think wiTh vision spEcialists. By offloading perception to state-of-the-art vision models, our approach enables vision-language models to focus solely on reasoning over high-quality perceptual information. To train LATTE, we synthesize and filter a large dataset of 293K multi-modal reasoning traces over perceptual outputs of vision specialists. LATTE trained on this data achieves significant 4-5% gains over baselines across 6 benchmarks covering both perception and reasoning abilities. Ablation studies reveal that the effectiveness of multi-modal reasoning traces depends on the data sources, formats, and quality of thoughts.

Anthology ID:: 2025.emnlp-main.564
Volume:: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: EMNLP
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 11192–11229
Language:
URL:: https://aclanthology.org/2025.emnlp-main.564/
DOI:: 10.18653/v1/2025.emnlp-main.564
Bibkey:
Cite (ACL):: Zixian Ma, Jianguo Zhang, Zhiwei Liu, Jieyu Zhang, Juntao Tan, Manli Shu, Juan Carlos Niebles, Shelby Heinecke, Huan Wang, Caiming Xiong, Ranjay Krishna, and Silvio Savarese. 2025. LATTE: Learning to Think with Vision Specialists. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 11192–11229, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: LATTE: Learning to Think with Vision Specialists (Ma et al., EMNLP 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.emnlp-main.564.pdf
Checklist:: 2025.emnlp-main.564.checklist.pdf

PDF Cite Search Checklist Fix data