Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation

Qiyue Gao; Xinyu Pi; Kevin Liu; Junrong Chen; Ruolan Yang; Xinqi Huang; Xinyu Fang; Lu Sun; Gautham Kishore; Bo Ai; Stone Tao; Mengyang Liu; Jiaxi Yang; Chao-Jung Lai; Chuanyang Jin; Jiannan Xiang; Benhao Huang; Zeming Chen; David Danks; Hao Su; Tianmin Shu; Ziqiao Ma; Lianhui Qin; Zhiting Hu

doi:10.18653/v1/2025.findings-acl.1342

Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation

Qiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, Xinyu Fang, Lu Sun, Gautham Kishore, Bo Ai, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai, Chuanyang Jin, Jiannan Xiang, Benhao Huang, Zeming Chen, David Danks, Hao Su, Tianmin Shu, Ziqiao Ma, Lianhui Qin, Zhiting Hu

Abstract

Internal world models (WMs) enable agents to understand the world’s state and predict transitions, serving as the basis for advanced deliberative reasoning.Recent large Vision-Language Models (VLMs), such as GPT-4o and Gemini, exhibit potential as general-purpose WMs. While the latest studies have evaluated and shown limitations in specific capabilities such as visual understanding, a systematic evaluation of VLMs’ fundamental WM abilities remains absent. Drawing on comparative psychology and cognitive science, we propose a two-stage framework that assesses **perception** (visual, spatial, temporal, quantitative, and motion) and **prediction** (mechanistic simulation, transitive inference, compositional inference) to provide an atomic evaluation of VLMs as WMs. Guided by this framework, we introduce **WM-ABench**, a large-scale benchmark comprising 23 fine-grained evaluation dimensions across 6 diverse simulated environments with controlled counterfactual simulations. Through 660 experiments on 15 latest commercial and open-source VLMs, we find that these models exhibit striking limitations in basic world modeling abilities. For instance, all models perform at near-random accuracy when distinguishing motion trajectories. Additionally, they lack disentangled understanding—e.g., they tend to believe blue objects move faster than green ones. More rich results and analyses reveal significant gaps between VLMs and human-level world modeling.

Anthology ID:: 2025.findings-acl.1342
Volume:: Findings of the Association for Computational Linguistics: ACL 2025
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 26170–26195
Language:
URL:: https://aclanthology.org/2025.findings-acl.1342/
DOI:: 10.18653/v1/2025.findings-acl.1342
Bibkey:
Cite (ACL):: Qiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, Xinyu Fang, Lu Sun, Gautham Kishore, Bo Ai, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai, Chuanyang Jin, Jiannan Xiang, Benhao Huang, Zeming Chen, David Danks, Hao Su, Tianmin Shu, Ziqiao Ma, Lianhui Qin, and Zhiting Hu. 2025. Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation. In Findings of the Association for Computational Linguistics: ACL 2025, pages 26170–26195, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation (Gao et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-acl.1342.pdf

PDF Cite Search Fix data