TiKMiX: Efficient Semi-Dynamic Data Mixture via Data Influence for LLM Pre-training

Yifan Wang; Binbinliu; Fengze Liu; Yuanfan Guo; Jiyao Deng; Xuecheng Wu; Weidong Zhou; Xiaohuan Zhou; Taifeng Wang

TiKMiX: Efficient Semi-Dynamic Data Mixture via Data Influence for LLM Pre-training

Yifan Wang, Binbinliu, Fengze Liu, Yuanfan Guo, Jiyao Deng, Xuecheng Wu, Weidong Zhou, Xiaohuan Zhou, Taifeng Wang

Abstract

The data mixture used in the pre-training of a language model is a cornerstone of its final performance. Static data mixing strategies in Large Language Model (LLM) pre-training are often suboptimal as they fail to adapt to the model’s evolving learning states. Conversely, fully online dynamic updates, while adaptive, incur prohibitive computational costs. To bridge this gap, we propose TiKMiX, an efficient semi-dynamic data mixing framework. Our approach is grounded in a key observation of influence ranking invariance: the relative importance of data domains exhibits strong temporal stability over long training intervals. Leveraging this insight, we propose Group Influence, an efficient approach for quantifying domain impact, and formulate data mixing as a periodic, low-overhead influence maximization problem. Compared with REGMIX, the proposed method reduces computational overhead by 80% and achieves an average performance gain of 2% across nine downstream benchmarks, thereby effectively mitigating data under-digestion.

Anthology ID:: 2026.acl-long.261
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 5777–5793
Language:
URL:: https://aclanthology.org/2026.acl-long.261/
DOI:
Bibkey:
Cite (ACL):: Yifan Wang, Binbinliu, Fengze Liu, Yuanfan Guo, Jiyao Deng, Xuecheng Wu, Weidong Zhou, Xiaohuan Zhou, and Taifeng Wang. 2026. TiKMiX: Efficient Semi-Dynamic Data Mixture via Data Influence for LLM Pre-training. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 5777–5793, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: TiKMiX: Efficient Semi-Dynamic Data Mixture via Data Influence for LLM Pre-training (Wang et al., ACL 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.acl-long.261.pdf
Checklist:: 2026.acl-long.261.checklist.pdf

PDF Cite Search Checklist Fix data