VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models

VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models Yifei Liu author Jicheng Wen author Yang Wang author Shengyu Ye author Li Lyna Zhang author Ting Cao author Cheng Li author Mao Yang author 2024-11 text Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing Yaser Al-Onaizan editor Mohit Bansal editor Yun-Nung Chen editor Association for Computational Linguistics Miami, Florida, USA conference publication liu-etal-2024-vptq 10.18653/v1/2024.emnlp-main.467 https://aclanthology.org/2024.emnlp-main.467/ 2024-11 8181 8196