ClusComp: A Simple Paradigm for Model Compression and Efficient Finetuning

Baohao Liao; Christian Herold; Seyyed Hadi Hashemi; Stefan Vasilev; Shahram Khadivi; Christof Monz

doi:10.18653/v1/2025.findings-acl.1272

ClusComp: A Simple Paradigm for Model Compression and Efficient Finetuning

Baohao Liao, Christian Herold, Seyyed Hadi Hashemi, Stefan Vasilev, Shahram Khadivi, Christof Monz

Abstract

As large language models (LLMs) scale, model compression is crucial for edge deployment and accessibility. Weight-only quantization reduces model size but suffers from performance degradation at lower bit widths. Moreover, standard finetuning is incompatible with quantized models, and alternative methods often fall short of full finetuning. In this paper, we propose ClusComp, a simple yet effective compression paradigm that clusters weight matrices into codebooks and finetunes them block-by-block. ClusComp (1) achieves superior performance in 2-4 bit quantization, (2) pushes compression to 1-bit while outperforming ultra-low-bit methods with minimal finetuning, and (3) enables efficient finetuning, even surpassing existing quantization-based approaches and rivaling full FP16 finetuning. Notably, ClusComp supports compression and finetuning of 70B LLMs on a single A6000-48GB GPU.

Anthology ID:: 2025.findings-acl.1272
Volume:: Findings of the Association for Computational Linguistics: ACL 2025
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 24779–24804
Language:
URL:: https://aclanthology.org/2025.findings-acl.1272/
DOI:: 10.18653/v1/2025.findings-acl.1272
Bibkey:
Cite (ACL):: Baohao Liao, Christian Herold, Seyyed Hadi Hashemi, Stefan Vasilev, Shahram Khadivi, and Christof Monz. 2025. ClusComp: A Simple Paradigm for Model Compression and Efficient Finetuning. In Findings of the Association for Computational Linguistics: ACL 2025, pages 24779–24804, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: ClusComp: A Simple Paradigm for Model Compression and Efficient Finetuning (Liao et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-acl.1272.pdf

PDF Cite Search Fix data