Attn-GS: Attention-Guided Context Compression for Efficient Personalized LLMs

Shenglai Zeng; Tianqi Zheng; Chuan Tian; Dante Everaert; Yau-Shian Wang; Yupin Huang; Michael J. Morais; Rohit Patki; Jinjin Tian; Xinnan Dai; Kai Guo; Monica Xiao Cheng; Hui Liu

Attn-GS: Attention-Guided Context Compression for Efficient Personalized LLMs

Shenglai Zeng, Tianqi Zheng, Chuan Tian, Dante Everaert, Yau-Shian Wang, Yupin Huang, Michael J. Morais, Rohit Patki, Jinjin Tian, Xinnan Dai, Kai Guo, Monica Xiao Cheng, Hui Liu

Abstract

Personalizing large language models (LLMs) to individual users requires incorporating extensive interaction histories and profiles, but input token constraints make this impractical due to high inference latency and API costs. Existing approaches rely on heuristic methods such as selecting recent interactions or prompting summarization models to compress user profiles. However, these methods treat context as a monolithic whole and fail to consider how LLMs internally process and prioritize different profile components. We investigate whether LLMs’ attention patterns can effectively identify important personalization signals for intelligent context compression. Through preliminary studies on representative personalization tasks, we discover that (a) LLMs’ attention patterns naturally reveal important signals, and (b) fine-tuning enhances LLMs’ ability to distinguish between relevant and irrelevant information. Based on these insights, we propose Attn-GS, an attention-guided context compression framework that leverages attention feedback from a marking model to mark important personalization sentences, then guides a compression model to generate task-relevant, high-quality compressed user contexts. Extensive experiments demonstrate that Attn-GS significantly outperforms various baselines across different tasks, token limits, and settings, achieving performance close to using full context while reducing token usage by 50 times.

Anthology ID:: 2026.acl-long.1663
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 35925–35946
Language:
URL:: https://aclanthology.org/2026.acl-long.1663/
DOI:
Bibkey:
Cite (ACL):: Shenglai Zeng, Tianqi Zheng, Chuan Tian, Dante Everaert, Yau-Shian Wang, Yupin Huang, Michael J. Morais, Rohit Patki, Jinjin Tian, Xinnan Dai, Kai Guo, Monica Xiao Cheng, and Hui Liu. 2026. Attn-GS: Attention-Guided Context Compression for Efficient Personalized LLMs. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 35925–35946, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Attn-GS: Attention-Guided Context Compression for Efficient Personalized LLMs (Zeng et al., ACL 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.acl-long.1663.pdf
Checklist:: 2026.acl-long.1663.checklist.pdf

PDF Cite Search Checklist Fix data