Rectified Sparse Attention for Efficient Long-Sequence Generation

Yutao Sun; Tianzhu Ye; Li Dong; Yuqing Xia; Jian Chen; Yizhao Gao; Shijie Cao; Jianyong Wang; Furu Wei

Rectified Sparse Attention for Efficient Long-Sequence Generation

Yutao Sun, Tianzhu Ye, Li Dong, Yuqing Xia, Jian Chen, Yizhao Gao, Shijie Cao, Jianyong Wang, Furu Wei

Abstract

Efficient long-sequence generation is a critical challenge for Large Language Models. While recent sparse decoding methods improve efficiency, they suffer from KV cache misalignment, where approximation errors accumulate and degrade generation quality. In this work, we propose Rectified Sparse Attention (ReSA), a simple yet effective method that combines block-sparse attention with periodic dense rectification. By refreshing the KV cache at fixed intervals using a dense forward pass, ReSA bounds error accumulation and preserves alignment with the pretraining distribution. Experiments across math reasoning, language modeling, and retrieval tasks demonstrate that ReSA achieves near-lossless generation quality with significantly improved efficiency. Notably, ReSA delivers up to 3.77x end-to-end speedup under decoding at 256K sequence length, making it a practical solution for scalable long-context inference.

Anthology ID:: 2026.findings-acl.348
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 7023–7034
Language:
URL:: https://aclanthology.org/2026.findings-acl.348/
DOI:
Bibkey:
Cite (ACL):: Yutao Sun, Tianzhu Ye, Li Dong, Yuqing Xia, Jian Chen, Yizhao Gao, Shijie Cao, Jianyong Wang, and Furu Wei. 2026. Rectified Sparse Attention for Efficient Long-Sequence Generation. In Findings of the Association for Computational Linguistics: ACL 2026, pages 7023–7034, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Rectified Sparse Attention for Efficient Long-Sequence Generation (Sun et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.348.pdf
Checklist:: 2026.findings-acl.348.checklist.pdf

PDF Cite Search Checklist Fix data