SLIM: Stealthy Low-Coverage Black-Box Watermarking via Latent-Space Confusion Zones

Hengyu WU; Yang Cao

SLIM: Stealthy Low-Coverage Black-Box Watermarking via Latent-Space Confusion Zones

Abstract

Training data is a critical and often proprietary asset in Large Language Model (LLM) development, motivating the use of data watermarking to embed model-transferable signals for usage verification. We identify low coverage as a vital yet largely overlooked requirement for practicality, as individual data owners typically contribute only a minute fraction of massive training corpora. Prior methods fail to maintain stealthiness, verification feasibility, or robustness when only one or a few sequences can be modified. To address these limitations, we introduce SLIM, a framework enabling per-user data provenance verification under strict black-box access. SLIM leverages intrinsic LLM properties to induce a Latent-Space Confusion Zone by training the model to map semantically similar prefixes to divergent continuations. This manifests as localized generation instability, which can be reliably detected via hypothesis testing. Experiments demonstrate that SLIM achieves ultra-low coverage capability, strong black-box verification performance, and great scalability while preserving both stealthiness and model utility, offering a robust solution for protecting training data in modern LLM pipelines.

Anthology ID:: 2026.findings-acl.919
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 18458–18473
Language:
URL:: https://aclanthology.org/2026.findings-acl.919/
DOI:
Bibkey:
Cite (ACL):: Hengyu WU and Yang Cao. 2026. SLIM: Stealthy Low-Coverage Black-Box Watermarking via Latent-Space Confusion Zones. In Findings of the Association for Computational Linguistics: ACL 2026, pages 18458–18473, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: SLIM: Stealthy Low-Coverage Black-Box Watermarking via Latent-Space Confusion Zones (WU & Cao, Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.919.pdf
Checklist:: 2026.findings-acl.919.checklist.pdf

PDF Cite Search Checklist Fix data