The Mechanics of Interference: Defusing Distractors in RAG via Sparse Autoencoder Interventions

Christian Giannetti; Giovanni Trappolini; Nicola Tonellotto; Fabrizio Silvestri; Pietro Lio

The Mechanics of Interference: Defusing Distractors in RAG via Sparse Autoencoder Interventions

Christian Giannetti, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri, Pietro Lio

Abstract

Large language models exhibit a critical vulnerability to distractor interference in retrieval-augmented contexts: they fail to prioritize relevant, factually correct documents over topically similar but misleading content. We introduce Lat-Defuse, a mechanistic framework that corrects this failure mode through targeted interventions in the model’s latent space. Using Sparse Autoencoders (SAEs), our method operates in an interpretable feature space and formulates correction as constrained counterfactual optimization. On Gemma-2 and Llama-3 model families across three QA benchmarks (BioASQ, Natural Questions, PopQA), our method achieves recovery rates of up to 94% on distractor-vulnerable samples. Successful correction through sparse modifications reveals distractor interference as a localized, systematically addressable phenomenon, opening directions toward universal distractor robustness in LLMs.

Anthology ID:: 2026.findings-acl.583
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 11999–12007
Language:
URL:: https://aclanthology.org/2026.findings-acl.583/
DOI:
Bibkey:
Cite (ACL):: Christian Giannetti, Giovanni Trappolini, Nicola Tonellotto, Fabrizio Silvestri, and Pietro Lio. 2026. The Mechanics of Interference: Defusing Distractors in RAG via Sparse Autoencoder Interventions. In Findings of the Association for Computational Linguistics: ACL 2026, pages 11999–12007, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: The Mechanics of Interference: Defusing Distractors in RAG via Sparse Autoencoder Interventions (Giannetti et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.583.pdf
Checklist:: 2026.findings-acl.583.checklist.pdf

PDF Cite Search Checklist Fix data