Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback

Loose lips sink ships: Mitigating Length Bias in Reinforcement Learning from Human Feedback Wei Shen author Rui Zheng author Wenyu Zhan author Jun Zhao author Shihan Dou author Tao Gui author Qi Zhang author Xuanjing Huang author 2023-12 text Findings of the Association for Computational Linguistics: EMNLP 2023 Houda Bouamor editor Juan Pino editor Kalika Bali editor Association for Computational Linguistics Singapore conference publication shen-etal-2023-loose 10.18653/v1/2023.findings-emnlp.188 https://aclanthology.org/2023.findings-emnlp.188/ 2023-12 2859 2873