The Rise of Darkness: Safety-Utility Trade-Offs in Role-Playing Dialogue Agents

Yihong Tang; Kehai Chen (陈科海); Xuefeng Bai (白雪峰); Zheng-Yu Niu; Bo Wang; Jie Liu; Min Zhang

doi:10.18653/v1/2025.findings-acl.839

The Rise of Darkness: Safety-Utility Trade-Offs in Role-Playing Dialogue Agents

Yihong Tang, Kehai Chen, Xuefeng Bai, Zheng-Yu Niu, Bo Wang, Jie Liu, Min Zhang

Abstract

Large Language Models (LLMs) have made remarkable advances in role-playing dialogue agents, demonstrating their utility in character simulations. However, it remains challenging for these agents to balance character portrayal utility with content safety because this essential character simulation often comes with the risk of generating unsafe content. To address this issue, we first conduct a systematic exploration of the safety-utility trade-off across multiple LLMs. Our analysis reveals that risk scenarios created by villain characters and user queries (referred to as risk coupling) contribute to this trade-off. Building on this, we propose a novel Adaptive Dynamic Multi-Preference (ADMP) method, which dynamically adjusts safety-utility preferences based on the degree of risk coupling and guides the model to generate responses biased toward utility or safety. We further introduce Coupling Margin Sampling (CMS) into coupling detection to enhance the model’s ability to handle high-risk scenarios. Experimental results demonstrate that our approach improves safety metrics while maintaining utility.

Anthology ID:: 2025.findings-acl.839
Volume:: Findings of the Association for Computational Linguistics: ACL 2025
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 16313–16337
Language:
URL:: https://aclanthology.org/2025.findings-acl.839/
DOI:: 10.18653/v1/2025.findings-acl.839
Bibkey:
Cite (ACL):: Yihong Tang, Kehai Chen, Xuefeng Bai, Zheng-Yu Niu, Bo Wang, Jie Liu, and Min Zhang. 2025. The Rise of Darkness: Safety-Utility Trade-Offs in Role-Playing Dialogue Agents. In Findings of the Association for Computational Linguistics: ACL 2025, pages 16313–16337, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: The Rise of Darkness: Safety-Utility Trade-Offs in Role-Playing Dialogue Agents (Tang et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-acl.839.pdf

PDF Cite Search Fix data