Don’t Forget Your Reward Values: Language Model Alignment via Value-based Calibration

Don’t Forget Your Reward Values: Language Model Alignment via Value-based Calibration Xin Mao author Feng-Lin Li author Huimin Xu author Wei Zhang author Wang Chen author Anh Tuan Luu author 2024-11 text Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing Yaser Al-Onaizan editor Mohit Bansal editor Yun-Nung Chen editor Association for Computational Linguistics Miami, Florida, USA conference publication mao-etal-2024-dont 10.18653/v1/2024.emnlp-main.976 https://aclanthology.org/2024.emnlp-main.976/ 2024-11 17622 17642