“Not Aligned” is Not “Malicious”: Being Careful about Hallucinations of Large Language Models’ Jailbreak

“Not Aligned” is Not “Malicious”: Being Careful about Hallucinations of Large Language Models’ Jailbreak Lingrui Mei author Shenghua Liu author Yiwei Wang author Baolong Bi author Jiayi Mao author Xueqi Cheng author 2025-01 text Proceedings of the 31st International Conference on Computational Linguistics Owen Rambow editor Leo Wanner editor Marianna Apidianaki editor Hend Al-Khalifa editor Barbara Di Eugenio editor Steven Schockaert editor Association for Computational Linguistics Abu Dhabi, UAE conference publication mei-etal-2025-aligned https://aclanthology.org/2025.coling-main.146/ 2025-01 2144 2162