Can MLLMs Reason Beyond Language? VisReason: A Comprehensive Benchmark for Vision-Centric Reasoning

Longteng Guo; Yifan Wang; Pengkang Huo; Tailai Chen; Yuze Wu; Jing Liu (刘晶, 刘璟); Xinxin Zhu

Can MLLMs Reason Beyond Language? VisReason: A Comprehensive Benchmark for Vision-Centric Reasoning

Longteng Guo, Yifan Wang, Pengkang Huo, Tailai Chen, Yuze Wu, Jing Liu, Xinxin Zhu

Abstract

Recent multimodal large language models (MLLMs) achieve strong performance on visual reasoning benchmarks, yet it remains unclear to what extent such performance reflects reasoning directly grounded in visual evidence. We introduce VisReason, a benchmark for vision-centric reasoning in everyday scenarios where perception and inference are tightly coupled. VisReason contains 1,505 questions across 10 categories spanning perceptual, structural, and conceptual reasoning. Our evaluation shows that VisReason poses a qualitatively different challenge from existing benchmarks, exposing substantial gaps between humans and current MLLMs and revealing limited benefits from test-time reasoning strategies. VisReason offers a focused diagnostic for evaluating vision-centric reasoning beyond language.

Anthology ID:: 2026.findings-acl.1996
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 40149–40192
Language:
URL:: https://aclanthology.org/2026.findings-acl.1996/
DOI:
Bibkey:
Cite (ACL):: Longteng Guo, Yifan Wang, Pengkang Huo, Tailai Chen, Yuze Wu, Jing Liu, and Xinxin Zhu. 2026. Can MLLMs Reason Beyond Language? VisReason: A Comprehensive Benchmark for Vision-Centric Reasoning. In Findings of the Association for Computational Linguistics: ACL 2026, pages 40149–40192, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Can MLLMs Reason Beyond Language? VisReason: A Comprehensive Benchmark for Vision-Centric Reasoning (Guo et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.1996.pdf
Checklist:: 2026.findings-acl.1996.checklist.pdf

PDF Cite Search Checklist Fix data