OMIBench: Benchmarking Olympiad-Level Multi-Image Reasoning in Large Vision-Language Models

Qiguang Chen (陈麒光); Chengyu Luan; Jiajun Wu; Qiming Yu; Yi Yang; Yizhuo Li; Jingqi Tong; Xiachong Feng; Libo Qin; Wanxiang Che (车万翔)

OMIBench: Benchmarking Olympiad-Level Multi-Image Reasoning in Large Vision-Language Models

Qiguang Chen, Chengyu Luan, Jiajun Wu, Qiming Yu, Yi Yang, Yizhuo Li, Jingqi Tong, Xiachong Feng, Libo Qin, Wanxiang Che

Abstract

Large vision-language models (LVLMs) have made substantial advances in reasoning tasks at the Olympiad level. Nevertheless, current Olympiad-level multimodal reasoning benchmarks for these models often emphasize single-image analysis and fail to exploit contextual information across multiple images. We present OMIBench, a benchmark designed to evaluate Olympiad-level reasoning when the required evidence is distributed over multiple images. It contains problems from biology, chemistry, mathematics, and physics Olympiads, together with manually annotated rationales and evaluation protocols for both exact and semantic answer matching. Across extensive experiments on OMIBench, we observe meaningful performance gaps in existing models. Even the strongest LVLMs, such as Gemini-3-Pro, attain only about 50% on the benchmark. These results position OMIBench as a focused resources for studying and improving multi-image reasoning in LVLMs.

Anthology ID:: 2026.acl-long.2090
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 45100–45135
Language:
URL:: https://aclanthology.org/2026.acl-long.2090/
DOI:
Bibkey:
Cite (ACL):: Qiguang Chen, Chengyu Luan, Jiajun Wu, Qiming Yu, Yi Yang, Yizhuo Li, Jingqi Tong, Xiachong Feng, Libo Qin, and Wanxiang Che. 2026. OMIBench: Benchmarking Olympiad-Level Multi-Image Reasoning in Large Vision-Language Models. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 45100–45135, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: OMIBench: Benchmarking Olympiad-Level Multi-Image Reasoning in Large Vision-Language Models (Chen et al., ACL 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.acl-long.2090.pdf
Checklist:: 2026.acl-long.2090.checklist.pdf

PDF Cite Search Checklist Fix data