Improving Discriminative Capability of Reward Models in RLHF Using Contrastive Learning

Improving Discriminative Capability of Reward Models in RLHF Using Contrastive Learning Lu Chen author Rui Zheng author Binghai Wang author Senjie Jin author Caishuang Huang author Junjie Ye author Zhihao Zhang author Yuhao Zhou author Zhiheng Xi author Tao Gui author Qi Zhang author Xuanjing Huang author 2024-11 text Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing Yaser Al-Onaizan editor Mohit Bansal editor Yun-Nung Chen editor Association for Computational Linguistics Miami, Florida, USA conference publication chen-etal-2024-improving-discriminative 10.18653/v1/2024.emnlp-main.852 https://aclanthology.org/2024.emnlp-main.852/ 2024-11 15270 15283