AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

Wentao Shi; Yu Wang; Yuyang Zhao; Yuxin Chen; Fuli Feng; Xueyuan Hao; Xi Su; Qi GU; Hui Su; Xunliang Cai; Xiangnan He

AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

Wentao Shi, Yu Wang, Yuyang Zhao, Yuxin Chen, Fuli Feng, Xueyuan Hao, Xi Su, Qi GU, Hui Su, Xunliang Cai, Xiangnan He

Abstract

As reinforcement learning continues to scale the training of large language model–based agents, reliably verifying agent behaviors in complex environments has become increasingly challenging. Existing approaches rely on rule-based verifiers or LLM-as-a-Judge models, which struggle to generalize beyond narrow domains. Agent-as-a-Judge addresses this limitation by actively interacting with environments and tools to acquire verifiable evidence, yet its capabilities remain underexplored.We introduce a benchmark AJ-Bench to systematically evaluate Agent-as-a-Judge across three domains—search, data systems, and graphical user interfaces—comprising 155 tasks and 516 annotated trajectories. The benchmark comprehensively assesses judge agents’ abilities in information acquisition, state verification, and process verification. Experiments demonstrate consistent performance gains over LLM-as-a-Judge baselines, while also revealing substantial open challenges in agent-based verification. Our data and code are available at https://aj-bench.github.io/.

Anthology ID:: 2026.findings-acl.1269
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 25371–25413
Language:
URL:: https://aclanthology.org/2026.findings-acl.1269/
DOI:
Bibkey:
Cite (ACL):: Wentao Shi, Yu Wang, Yuyang Zhao, Yuxin Chen, Fuli Feng, Xueyuan Hao, Xi Su, Qi GU, Hui Su, Xunliang Cai, and Xiangnan He. 2026. AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation. In Findings of the Association for Computational Linguistics: ACL 2026, pages 25371–25413, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation (Shi et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.1269.pdf
Checklist:: 2026.findings-acl.1269.checklist.pdf

PDF Cite Search Checklist Fix data