LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts

Junhao Chen; Jingbo Sun; Xiang Li; Haidong Xin; Yuhao Xue; Yibin Xu; Hao Zhao

doi:10.18653/v1/2025.findings-emnlp.12

LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts

Junhao Chen, Jingbo Sun, Xiang Li, Haidong Xin, Yuhao Xue, Yibin Xu, Hao Zhao

Abstract

As large language models (LLMs) advance across diverse tasks, the need for comprehensive evaluation beyond single metrics becomes increasingly important.To fully assess LLM intelligence, it is crucial to examine their interactive dynamics and strategic behaviors.We present LLMsPark, a game theory–based evaluation platform that measures LLMs’ decision-making strategies and social behaviors in classic game-theoretic settings, providing a multi-agent environment to explore strategic depth.Our system cross-evaluates 15 leading LLMs (both commercial and open-source) using leaderboard rankings and scoring mechanisms. Higher scores reflect stronger reasoning and strategic capabilities, revealing distinct behavioral patterns and performance differences across models.This work introduces a novel perspective for evaluating LLMs’ strategic intelligence, enriching existing benchmarks and broadening their assessment in interactive, game-theoretic scenarios.The benchmark and rankings are publicly available at https://llmsparks.github.io/.

Anthology ID:: 2025.findings-emnlp.12
Volume:: Findings of the Association for Computational Linguistics: EMNLP 2025
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 182–194
Language:
URL:: https://aclanthology.org/2025.findings-emnlp.12/
DOI:: 10.18653/v1/2025.findings-emnlp.12
Bibkey:
Cite (ACL):: Junhao Chen, Jingbo Sun, Xiang Li, Haidong Xin, Yuhao Xue, Yibin Xu, and Hao Zhao. 2025. LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts. In Findings of the Association for Computational Linguistics: EMNLP 2025, pages 182–194, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: LLMsPark: A Benchmark for Evaluating Large Language Models in Strategic Gaming Contexts (Chen et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-emnlp.12.pdf
Checklist:: 2025.findings-emnlp.12.checklist.pdf

PDF Cite Search Checklist Fix data