Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning

Self-Training with Direct Preference Optimization Improves Chain-of-Thought Reasoning Tianduo Wang author Shichen Li author Wei Lu author 2024-08 text Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) Lun-Wei Ku editor Andre Martins editor Vivek Srikumar editor Association for Computational Linguistics Bangkok, Thailand conference publication wang-etal-2024-self-training 10.18653/v1/2024.acl-long.643 https://aclanthology.org/2024.acl-long.643/ 2024-08 11917 11928