Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation

Qiji Zhou; YiFan Gong; Guangsheng Bao; Hongjie Qiu; Jinqiang Li; Xiangrong Zhu; Huajian Zhang; Yue Zhang

doi:10.18653/v1/2025.findings-acl.151

Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation

Qiji Zhou, YiFan Gong, Guangsheng Bao, Hongjie Qiu, Jinqiang Li, Xiangrong Zhu, Huajian Zhang, Yue Zhang

Abstract

Counterfactual reasoning is crucial for robust video understanding but remains underexplored in existing multimodal benchmarks. In this paper, we introduce **COVER** (**CO**unterfactual **V**id**E**o **R**easoning), a multidimensional multimodal benchmark that systematically evaluates MLLMs across the abstract-concrete and perception-cognition dimensions. Beyond prior multimodal benchmarks, COVER decomposes complex queries into structured sub-questions, enabling fine-grained reasoning analysis. Experiments on commercial and open-source models reveal a strong correlation between sub-question accuracy and counterfactual reasoning performance, highlighting the role of structured inference in video understanding. Furthermore, our results suggest a key insight: enhancing the reasoning capability of models is essential for improving the robustness of video understanding. COVER establishes a new standard for assessing MLLMs’ logical reasoning abilities in dynamic environments. Our work is available at https://github.com/gongyifan-hash/COVER-Benchmark.

Anthology ID:: 2025.findings-acl.151
Original:: 2025.findings-acl.151v1
Version 2:: 2025.findings-acl.151v2
Volume:: Findings of the Association for Computational Linguistics: ACL 2025
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 2939–2957
Language:
URL:: https://aclanthology.org/2025.findings-acl.151/
DOI:: 10.18653/v1/2025.findings-acl.151
Bibkey:
Cite (ACL):: Qiji Zhou, YiFan Gong, Guangsheng Bao, Hongjie Qiu, Jinqiang Li, Xiangrong Zhu, Huajian Zhang, and Yue Zhang. 2025. Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation. In Findings of the Association for Computational Linguistics: ACL 2025, pages 2939–2957, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation (Zhou et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-acl.151.pdf

PDF (v2) PDF (v1) Cite Search Fix data