HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Assistant Scenarios

Jun Wang; Jiamu Zhou; Xihuai Wang; Xiaoyun Mo; Haoyu Zhang; Qiqiang Lin; Cheng Jin; Muning Wen; Weinan Zhang; Qiuying Peng; Jun Wang

doi:10.18653/v1/2025.findings-acl.175

HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Assistant Scenarios

Jun Wang, Jiamu Zhou, Xihuai Wang, Xiaoyun Mo, Haoyu Zhang, Qiqiang Lin, Cheng Jin, Muning Wen, Weinan Zhang, Qiuying Peng, Jun Wang

Abstract

Evaluating the performance of LLMs in multi-turn human-agent interactions presents significant challenges, particularly due to the complexity and variability of user behavior. In this paper, we introduce HammerBench, a novel benchmark framework for assessing LLMs’ function-calling capabilities in real-world, multi-turn dialogues. HammerBench simulates diverse mobile assistant use cases, incorporating imperfect instructions, dynamic question-answer trajectories, intent and argument shifts, and the indirect use of external information through pronouns. To construct this benchmark, we curate a comprehensive dataset derived from popular mobile app functionalities and anonymized user logs, complemented by a cost-effective data generation pipeline leveraging open-source models. HammerBench is further augmented with fine-grained interaction snapshots and metrics, enabling detailed evaluation of function-calling performance across individual conversational turns. We demonstrate the effectiveness of HammerBench by evaluating several leading LLMs and uncovering key performance trends. Our experiments reveal that different types of parameter name errors are a significant source of failure across different interaction scenarios, highlighting critical areas for further improvement in LLM robustness for mobile assistant applications.

Anthology ID:: 2025.findings-acl.175
Volume:: Findings of the Association for Computational Linguistics: ACL 2025
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 3350–3376
Language:
URL:: https://aclanthology.org/2025.findings-acl.175/
DOI:: 10.18653/v1/2025.findings-acl.175
Bibkey:
Cite (ACL):: Jun Wang, Jiamu Zhou, Xihuai Wang, Xiaoyun Mo, Haoyu Zhang, Qiqiang Lin, Cheng Jin, Muning Wen, Weinan Zhang, Qiuying Peng, and Jun Wang. 2025. HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Assistant Scenarios. In Findings of the Association for Computational Linguistics: ACL 2025, pages 3350–3376, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: HammerBench: Fine-Grained Function-Calling Evaluation in Real Mobile Assistant Scenarios (Wang et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-acl.175.pdf

PDF Cite Search Fix data