GPTs Don’t Keep Secrets: Searching for Backdoor Watermark Triggers in Autoregressive Language Models

GPTs Don’t Keep Secrets: Searching for Backdoor Watermark Triggers in Autoregressive Language Models Evan Lucas author Timothy Havens author 2023-07 text Proceedings of the 3rd Workshop on Trustworthy Natural Language Processing (TrustNLP 2023) Anaelia Ovalle editor Kai-Wei Chang editor Ninareh Mehrabi editor Yada Pruksachatkun editor Aram Galystan editor Jwala Dhamala editor Apurv Verma editor Trista Cao editor Anoop Kumar editor Rahul Gupta editor Association for Computational Linguistics Toronto, Canada conference publication lucas-havens-2023-gpts 10.18653/v1/2023.trustnlp-1.21 https://aclanthology.org/2023.trustnlp-1.21/ 2023-07 242 248