Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning

Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning Julia Kreutzer author Joshua Uyheng author Stefan Riezler author 2018-07 text Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) Iryna Gurevych editor Yusuke Miyao editor Association for Computational Linguistics Melbourne, Australia conference publication kreutzer-etal-2018-reliability 10.18653/v1/P18-1165 https://aclanthology.org/P18-1165/ 2018-07 1777 1788