Aligning as Debiasing: Causality-Aware Alignment via Reinforcement Learning with Interventional Feedback

Aligning as Debiasing: Causality-Aware Alignment via Reinforcement Learning with Interventional Feedback Yu Xia author Tong Yu author Zhankui He author Handong Zhao author Julian McAuley author Shuai Li author 2024-06 text Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) Kevin Duh editor Helena Gomez editor Steven Bethard editor Association for Computational Linguistics Mexico City, Mexico conference publication xia-etal-2024-aligning 10.18653/v1/2024.naacl-long.262 https://aclanthology.org/2024.naacl-long.262/ 2024-06 4684 4695