Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data

Inverse-Q*: Token Level Reinforcement Learning for Aligning Large Language Models Without Preference Data Han Xia author Songyang Gao author Qiming Ge author Zhiheng Xi author Qi Zhang author Xuanjing Huang author 2024-11 text Findings of the Association for Computational Linguistics: EMNLP 2024 Yaser Al-Onaizan editor Mohit Bansal editor Yun-Nung Chen editor Association for Computational Linguistics Miami, Florida, USA conference publication xia-etal-2024-inverse 10.18653/v1/2024.findings-emnlp.478 https://aclanthology.org/2024.findings-emnlp.478/ 2024-11 8178 8188