E2-LLM: Efficient and Extreme Length Extension of Large Language Models

Jiaheng Liu; Zhiqi Bai; Yuanxing Zhang; Chenchen Zhang; Yu Zhang; Ge Zhang; Jiakai Wang; Haoran Que; Yukang Chen; Wenbo Su; Tiezheng Ge; Jie Fu; Wenhu Chen; Bo Zheng

doi:10.18653/v1/2024.findings-acl.252

E2-LLM: Efficient and Extreme Length Extension of Large Language Models

Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu, Wenhu Chen, Bo Zheng

Abstract

Training Large Language Models (LLMs) to process extensive context lengths incurs prohibitive computational costs. Prevailing techniques for extending context capabilities in LLMs typically require not only additional training procedures but also access to datasets with long context (e.g., sequences of 32K tokens), presupposing substantial GPU expenditures. To address the aforementioned issues, we introduce a novel solution named Efficient and Extreme length extension for Large Language Models (E2-LLM). E2-LLM entails a singular training process over considerably short sequences (e.g., 4K tokens), which greatly mitigates the cost of continual-pretraining or fine-tuning. Within the training phase, we incorporate a dual augmentation strategy with Rotary Position Embeddings (RoPE) that adjusts the scale and position indices across distinct training samples. E 2 -LLM is meticulously designed to enhance the model’s robustness to diverse relative positions. The experimental results on multiple benchmark datasets demonstrate the superior performance of E 2 -LLM on demanding tasks of processing long contexts.

Anthology ID:: 2024.findings-acl.252
Volume:: Findings of the Association for Computational Linguistics: ACL 2024
Month:: August
Year:: 2024
Address:: Bangkok, Thailand
Editors:: Lun-Wei Ku, Andre Martins, Vivek Srikumar
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 4243–4253
Language:
URL:: https://aclanthology.org/2024.findings-acl.252/
DOI:: 10.18653/v1/2024.findings-acl.252
Bibkey:
Cite (ACL):: Jiaheng Liu, Zhiqi Bai, Yuanxing Zhang, Chenchen Zhang, Yu Zhang, Ge Zhang, Jiakai Wang, Haoran Que, Yukang Chen, Wenbo Su, Tiezheng Ge, Jie Fu, Wenhu Chen, and Bo Zheng. 2024. E2-LLM: Efficient and Extreme Length Extension of Large Language Models. In Findings of the Association for Computational Linguistics: ACL 2024, pages 4243–4253, Bangkok, Thailand. Association for Computational Linguistics.
Cite (Informal):: E2-LLM: Efficient and Extreme Length Extension of Large Language Models (Liu et al., Findings 2024)
Copy Citation:
PDF:: https://aclanthology.org/2024.findings-acl.252.pdf

PDF Cite Search Fix data