TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators

Jianling Li; Shangzhan Li; Zhenye Gao; Qi Shi; Yuxuan Li; Zefan Wang; Jiacheng Huang; WangHaojie WangHaojie; Jianrong Wang; Xu Han (韩旭); Zhiyuan Liu; Maosong Sun

doi:10.18653/v1/2025.findings-acl.1183

TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators

Jianling Li, Shangzhan Li, Zhenye Gao, Qi Shi, Yuxuan Li, Zefan Wang, Jiacheng Huang, Haojie Wang, Jianrong Wang, Xu Han, Zhiyuan Liu, Maosong Sun

Abstract

Triton, a high-level Python-like language designed for building efficient GPU kernels, is widely adopted in deep learning frameworks due to its portability, flexibility, and accessibility. However, programming and parallel optimization still require considerable trial and error from Triton developers. Despite advances in large language models (LLMs) for conventional code generation, these models struggle to generate accurate, performance-optimized Triton code, as they lack awareness of its specifications and the complexities of GPU programming. More critically, there is an urgent need for systematic evaluations tailored to Triton. In this work, we introduce TritonBench, the first comprehensive benchmark for Triton operator generation. TritonBench features two evaluation channels: a curated set of 184 real-world operators from GitHub and a collection of operators aligned with PyTorch interfaces. Unlike conventional code benchmarks prioritizing functional correctness, TritonBench also profiles efficiency performance on widely deployed GPUs aligned with industry applications. Our study reveals that current state-of-the-art code LLMs struggle to generate efficient Triton operators, highlighting a significant gap in high-performance code generation.

Anthology ID:: 2025.findings-acl.1183
Volume:: Findings of the Association for Computational Linguistics: ACL 2025
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 23053–23066
Language:
URL:: https://aclanthology.org/2025.findings-acl.1183/
DOI:: 10.18653/v1/2025.findings-acl.1183
Bibkey:
Cite (ACL):: Jianling Li, Shangzhan Li, Zhenye Gao, Qi Shi, Yuxuan Li, Zefan Wang, Jiacheng Huang, Haojie Wang, Jianrong Wang, Xu Han, Zhiyuan Liu, and Maosong Sun. 2025. TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators. In Findings of the Association for Computational Linguistics: ACL 2025, pages 23053–23066, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: TritonBench: Benchmarking Large Language Model Capabilities for Generating Triton Operators (Li et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-acl.1183.pdf

PDF Cite Search Fix data