FAER: Benchmarking VLMs for Failure-Aware Embodied Reasoning

Hao Song; Kaifeng Liu; Yuanxing Liu; Xiang Tian; Xuesong Wang; Chen Yifan; Weinan Zhang; Ting Liu

FAER: Benchmarking VLMs for Failure-Aware Embodied Reasoning

Hao Song, Kaifeng Liu, Yuanxing Liu, Xiang Tian, Xuesong Wang, Chen Yifan, Weinan Zhang, Ting Liu

Abstract

Failures are inevitable when embodied agents execute complex tasks. Visual-language models (VLMs) serve as the core component of embodied agents in perceiving the environment and making decisions. Assessing the capabilities of VLMs in detecting and reasoning about failures has become increasingly important. Previous work primarily considered low-level manipulation failures (e.g., 3cm grasp offsets), neglecting high-level failures arising during long-horizon task execution (e.g., object-dropping failure in the “clean room” task) by embodied agents. In this paper, we propose FAER, a failure-aware benchmark aiming to evaluate the performance of VLMs in terms of failure detection, failure categorization, failure description, and failure correction in long-horizon tasks. FAER comprises 3,323 episodes, spanning 3 scenes, 65 tasks, and 83 objects. We assess the performance of 16 widely utilized VLMs and 4 LLMs for FAER tasks. Experimental results show that nearly all VLMs, even GPT-4o, exhibit limited performance in failure detection with a high false negative rate, meaning that they tend to ignore abnormal events, revealing notable gaps in current models’ capacity to effectively handle failures.

Anthology ID:: 2026.findings-acl.948
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 18994–19016
Language:
URL:: https://aclanthology.org/2026.findings-acl.948/
DOI:
Bibkey:
Cite (ACL):: Hao Song, Kaifeng Liu, Yuanxing Liu, Xiang Tian, Xuesong Wang, Chen Yifan, Weinan Zhang, and Ting Liu. 2026. FAER: Benchmarking VLMs for Failure-Aware Embodied Reasoning. In Findings of the Association for Computational Linguistics: ACL 2026, pages 18994–19016, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: FAER: Benchmarking VLMs for Failure-Aware Embodied Reasoning (Song et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.948.pdf
Checklist:: 2026.findings-acl.948.checklist.pdf

PDF Cite Search Checklist Fix data