Reward Difference Optimization For Sample Reweighting In Offline RLHF

Reward Difference Optimization For Sample Reweighting In Offline RLHF Shiqi Wang author Zhengze Zhang author Rui Zhao author Fei Tan author Cam Tu Nguyen author 2024-11 text Findings of the Association for Computational Linguistics: EMNLP 2024 Yaser Al-Onaizan editor Mohit Bansal editor Yun-Nung Chen editor Association for Computational Linguistics Miami, Florida, USA conference publication wang-etal-2024-reward 10.18653/v1/2024.findings-emnlp.115 https://aclanthology.org/2024.findings-emnlp.115/ 2024-11 2109 2123