HateModerate: Testing Hate Speech Detectors against Content Moderation Policies

HateModerate: Testing Hate Speech Detectors against Content Moderation Policies Jiangrui Zheng author Xueqing Liu author Mirazul Haque author Xing Qian author Guanqun Yang author Wei Yang author 2024-06 text Findings of the Association for Computational Linguistics: NAACL 2024 Kevin Duh editor Helena Gomez editor Steven Bethard editor Association for Computational Linguistics Mexico City, Mexico conference publication zheng-etal-2024-hatemoderate 10.18653/v1/2024.findings-naacl.172 https://aclanthology.org/2024.findings-naacl.172/ 2024-06 2691 2710