Scaling Laws for Code: Every Programming Language Matters

Jian Yang; Shuyue Guo; Linzheng Chai; Wei Zhang; Aishan Liu; Chuan Hao; Zhoujun Li; Wayne Xin Zhao; Xianglong Liu; Weifeng Lv; Bryan Dai

Scaling Laws for Code: Every Programming Language Matters

Jian Yang, Shuyue Guo, Linzheng Chai, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Xin Zhao, Xianglong Liu, Weifeng Lv, Bryan Dai

Abstract

Large language models (LLMs) are powerful but costly to train, with scaling laws predicting performance from model size, data, and compute. However, different programming languages (PLs) have varying impacts during pre-training that significantly affect base model performance, leading to inaccurate performance prediction. Existing works focus on language-agnostic settings, neglecting the inherently multilingual nature of modern software development. Therefore, it is first necessary to investigate the scaling laws of different PLs, and then consider their mutual influences to arrive at the final multilingual scaling law. In this paper, we present the first systematic exploration of scaling laws for multilingual code pre-training, conducting over 1000+ experiments (Equivalent to 336,000+ H800 hours) across multiple PLs, model sizes (0.2B to 14B parameters), and dataset sizes (1T tokens). We establish scaling laws for code LLMs across multiple programming languages, showing that interpreted languages benefit more from increased scale than compiled ones. Multilingual pre-training provides synergistic benefits, especially between syntactically similar languages, with parallel pairing (concatenating code with translations) significantly enhancing cross-lingual abilities. We propose a proportion-dependent multilingual scaling law that optimally allocates training tokens by prioritizing high-utility languages (e.g., Python), balancing high-synergy pairs (e.g., JavaScript-TypeScript), and reducing allocation to fast-saturating languages (e.g., Rust), achieving superior performance across all languages compared to uniform distribution.

Anthology ID:: 2026.findings-acl.487
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 10022–10032
Language:
URL:: https://aclanthology.org/2026.findings-acl.487/
DOI:
Bibkey:
Cite (ACL):: Jian Yang, Shuyue Guo, Linzheng Chai, Wei Zhang, Aishan Liu, Chuan Hao, Zhoujun Li, Xin Zhao, Xianglong Liu, Weifeng Lv, and Bryan Dai. 2026. Scaling Laws for Code: Every Programming Language Matters. In Findings of the Association for Computational Linguistics: ACL 2026, pages 10022–10032, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Scaling Laws for Code: Every Programming Language Matters (Yang et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.487.pdf
Checklist:: 2026.findings-acl.487.checklist.pdf

PDF Cite Search Checklist Fix data