Task-Agnostic Detector for Insertion-Based Backdoor Attacks

Weimin Lyu; Xiao Lin; Songzhu Zheng; Lu Pang; Haibin Ling; Susmit Jha; Chao Chen

doi:10.18653/v1/2024.findings-naacl.179

Task-Agnostic Detector for Insertion-Based Backdoor Attacks

Weimin Lyu, Xiao Lin, Songzhu Zheng, Lu Pang, Haibin Ling, Susmit Jha, Chao Chen

Abstract

Textual backdoor attacks pose significant security threats. Current detection approaches, typically relying on intermediate feature representation or reconstructing potential triggers, are task-specific and less effective beyond sentence classification, struggling with tasks like question answering and named entity recognition. We introduce TABDet (Task-Agnostic Backdoor Detector), a pioneering task-agnostic method for backdoor detection. TABDet leverages final layer logits combined with an efficient pooling technique, enabling unified logit representation across three prominent NLP tasks. TABDet can jointly learn from diverse task-specific models, demonstrating superior detection efficacy over traditional task-specific methods.

Anthology ID:: 2024.findings-naacl.179
Volume:: Findings of the Association for Computational Linguistics: NAACL 2024
Month:: June
Year:: 2024
Address:: Mexico City, Mexico
Editors:: Kevin Duh, Helena Gomez, Steven Bethard
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 2808–2822
Language:
URL:: https://aclanthology.org/2024.findings-naacl.179
DOI:: 10.18653/v1/2024.findings-naacl.179
Bibkey:
Cite (ACL):: Weimin Lyu, Xiao Lin, Songzhu Zheng, Lu Pang, Haibin Ling, Susmit Jha, and Chao Chen. 2024. Task-Agnostic Detector for Insertion-Based Backdoor Attacks. In Findings of the Association for Computational Linguistics: NAACL 2024, pages 2808–2822, Mexico City, Mexico. Association for Computational Linguistics.
Cite (Informal):: Task-Agnostic Detector for Insertion-Based Backdoor Attacks (Lyu et al., Findings 2024)
Copy Citation:
PDF:: https://aclanthology.org/2024.findings-naacl.179.pdf

PDF Cite Search