Dual Activation-Weight Sparsity: A Training-Free Framework for Efficient Large Language Model Compression

Luoyang Sun; Guangyan Li; Cheng Deng; Haifeng Zhang; Jian Zhao; Yongqiang Tang; Wensheng Zhang; Jun Wang

Dual Activation-Weight Sparsity: A Training-Free Framework for Efficient Large Language Model Compression

Luoyang Sun, Guangyan Li, Cheng Deng, Haifeng Zhang, Jian Zhao, Yongqiang Tang, Wensheng Zhang, Jun Wang

Abstract

Large language models (LLMs) excel at natural language tasks but face deployment challenges due to computational demands. We introduce Dual Activation-Weight Sparsity (DAWS), a training-free framework that jointly exploits activation and weight sparsity through magnitude-based routing. Systematic analysis of pretrained transformers reveals two key observations: (1) the activation energy is concentrated in a few neurons, and (2) activation and weight sparsity patterns are complementary between attention and FFN layers. DAWS employs a three-tier routing strategy: high-magnitude activations pass through full-precision weights to preserve critical pathways, medium-magnitude activations use magnitude-pruned sparse weights for efficiency, and low-magnitude activations are directly discarded. Unlike prior work that uses activation-aware pruning methods like WANDA, our approach uses direct magnitude-based pruning, which we show is more robust to sample-level variations. Experiments on Llama and Mistral models demonstrate that DAWS maintains >98% of dense model performance at 50% sparsity, outperforming WANDA, TEAL, and R-Sparse.

Anthology ID:: 2026.acl-long.378
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 8350–8366
Language:
URL:: https://aclanthology.org/2026.acl-long.378/
DOI:
Bibkey:
Cite (ACL):: Luoyang Sun, Guangyan Li, Cheng Deng, Haifeng Zhang, Jian Zhao, Yongqiang Tang, Wensheng Zhang, and Jun Wang. 2026. Dual Activation-Weight Sparsity: A Training-Free Framework for Efficient Large Language Model Compression. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 8350–8366, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Dual Activation-Weight Sparsity: A Training-Free Framework for Efficient Large Language Model Compression (Sun et al., ACL 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.acl-long.378.pdf
Checklist:: 2026.acl-long.378.checklist.pdf

PDF Cite Search Checklist Fix data