Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint

Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint Zhipeng Chen author Kun Zhou author Wayne Xin Zhao author Junchen Wan author Fuzheng Zhang author Di Zhang author Ji-Rong Wen author 2024-08 text Findings of the Association for Computational Linguistics: ACL 2024 Lun-Wei Ku editor Andre Martins editor Vivek Srikumar editor Association for Computational Linguistics Bangkok, Thailand conference publication chen-etal-2024-improving 10.18653/v1/2024.findings-acl.338 https://aclanthology.org/2024.findings-acl.338/ 2024-08 5694 5711