Preventing Safety Drift in Large Language Models via Coupled Weight and Activation Constraints

Songping Peng; Zhiheng Zhang; Daojian Zeng; Lincheng Jiang; Xieping Gao

Preventing Safety Drift in Large Language Models via Coupled Weight and Activation Constraints

Songping Peng, Zhiheng Zhang, Daojian Zeng, Lincheng Jiang, Xieping Gao

Abstract

Safety alignment in Large Language Models (LLMs) remains highly fragile during fine-tuning, where even benign adaptation can degrade pre-trained refusal behaviors and enable harmful responses. Existing defenses typically constrain either weights or activations in isolation, without considering their coupled effects on safety. In this paper, we first theoretically demonstrate that constraining either weights or activations alone is insufficient for safety preservation. To robustly preserve safety alignment, we propose Coupled Weight and Activation Constraints (CWAC), a novel approach that simultaneously enforces a precomputed safety subspace on weight updates and applies targeted regularization to safety-critical features identified by sparse autoencoders. Extensive experiments across four widely used LLMs and diverse downstream tasks show that CWAC consistently achieves the lowest harmful scores with minimal impact on fine-tuning accuracy, substantially outperforming strong baselines even under high harmful data ratios.

Anthology ID:: 2026.findings-acl.874
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 17646–17662
Language:
URL:: https://aclanthology.org/2026.findings-acl.874/
DOI:
Bibkey:
Cite (ACL):: Songping Peng, Zhiheng Zhang, Daojian Zeng, Lincheng Jiang, and Xieping Gao. 2026. Preventing Safety Drift in Large Language Models via Coupled Weight and Activation Constraints. In Findings of the Association for Computational Linguistics: ACL 2026, pages 17646–17662, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Preventing Safety Drift in Large Language Models via Coupled Weight and Activation Constraints (Peng et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.874.pdf
Checklist:: 2026.findings-acl.874.checklist.pdf

PDF Cite Search Checklist Fix data