Improving Continual Pre-training Through Seamless Data Packing

Ruicheng Yin; Xuan Gao; Changze Lv; Xiaohua Wang; Xiaoqing Zheng; Xuan-Jing Huang (黄萱菁)

doi:10.18653/v1/2025.findings-acl.777

Improving Continual Pre-training Through Seamless Data Packing

Ruicheng Yin, Xuan Gao, Changze Lv, Xiaohua Wang, Xiaoqing Zheng, Xuanjing Huang

Abstract

Continual pre-training has demonstrated significant potential in enhancing model performance, particularly in domain-specific scenarios. The most common approach for packing data before continual pre-training involves concatenating input texts and splitting them into fixed-length sequences. While straightforward and efficient, this method often leads to excessive truncation and context discontinuity, which can hinder model performance. To address these issues, we explore the potential of data engineering to enhance continual pre-training, particularly its impact on model performance and efficiency. We propose Seamless Packing (SP), a novel data packing strategy aimed at preserving contextual information and enhancing model performance. Our approach employs a sliding window technique in the first stage that synchronizes overlapping tokens across consecutive sequences, ensuring better continuity and contextual coherence. In the second stage, we adopt a First-Fit-Decreasing algorithm to pack shorter texts into bins slightly larger than the target sequence length, thereby minimizing padding and truncation. Empirical evaluations across various model architectures and corpus domains demonstrate the effectiveness of our method, outperforming baselines in 99% of all settings. Code is available at https://github.com/Infernus-WIND/Seamless-Packing.

Anthology ID:: 2025.findings-acl.777
Volume:: Findings of the Association for Computational Linguistics: ACL 2025
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 15014–15032
Language:
URL:: https://aclanthology.org/2025.findings-acl.777/
DOI:: 10.18653/v1/2025.findings-acl.777
Bibkey:
Cite (ACL):: Ruicheng Yin, Xuan Gao, Changze Lv, Xiaohua Wang, Xiaoqing Zheng, and Xuanjing Huang. 2025. Improving Continual Pre-training Through Seamless Data Packing. In Findings of the Association for Computational Linguistics: ACL 2025, pages 15014–15032, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: Improving Continual Pre-training Through Seamless Data Packing (Yin et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-acl.777.pdf

PDF Cite Search Fix data