RiT: Rubrics-in-Thinking Reinforcement Learning for Improved Reasoning in Large Language Models

Xiaobin Tian; Shuai Yuan; Muyun Ding; Haonan Chen; Xiaoxi Jiang

RiT: Rubrics-in-Thinking Reinforcement Learning for Improved Reasoning in Large Language Models

Xiaobin Tian, Shuai Yuan, Muyun Ding, Haonan Chen, Xiaoxi Jiang

Abstract

Large Reasoning Models (LRMs) benefit from generating intermediate reasoning steps, enabling more reliable and interpretable decision-making. While outcome-based supervision has proven effective for LRMs across diverse tasks, it focuses solely on final answers and cannot guarantee high-quality intermediate reasoning. In contrast, existing process supervision is largely limited to verifiable domains such as mathematics or code, where intermediate steps can be explicitly checked, restricting its applicability to open-ended reasoning tasks. To address these limitations, we propose Rubrics-in-Thinking Reinforcement Learning (RiT), the first framework to introduce thinking-rubric supervision into intermediate reasoning. RiT automatically generates fine-grained rubrics and integrates them into a reward function via gated fusion with outcome-based rewards, guiding models to reason in a coherent and task-aligned manner, improving both intermediate steps and the final response. Experiments on reasoning-intensive and open-ended benchmarks demonstrate that RiT consistently outperforms outcome-only RL baselines.

Anthology ID:: 2026.findings-acl.192
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 3944–3957
Language:
URL:: https://aclanthology.org/2026.findings-acl.192/
DOI:
Bibkey:
Cite (ACL):: Xiaobin Tian, Shuai Yuan, Muyun Ding, Haonan Chen, and Xiaoxi Jiang. 2026. RiT: Rubrics-in-Thinking Reinforcement Learning for Improved Reasoning in Large Language Models. In Findings of the Association for Computational Linguistics: ACL 2026, pages 3944–3957, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: RiT: Rubrics-in-Thinking Reinforcement Learning for Improved Reasoning in Large Language Models (Tian et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.192.pdf
Checklist:: 2026.findings-acl.192.checklist.pdf

PDF Cite Search Checklist Fix data