Language Models Can Easily Learn to Reason from Demonstrations

Dacheng Li; Shiyi Cao; Tyler Griggs; Shu Liu; Xiangxi Mo; Eric Tang; Sumanth Hegde; Kourosh Hakhamaneshi; Shishir G Patil; Matei Zaharia; Joseph E. Gonzalez; Ion Stoica

Language Models Can Easily Learn to Reason from Demonstrations

Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Eric Tang, Sumanth Hegde, Kourosh Hakhamaneshi, Shishir G Patil, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica

Abstract

Large reasoning models (LRMs) tackle complex problems by following long chain-of-thoughts (Long CoT) that incorporate reflection, backtracking, and self-validation. However, the training techniques and data requirements to elicit Long CoT remain poorly understood. In this work, we find that language models can effectively learn Long CoT reasoning through data-efficient supervised fine-tuning (SFT) and further parameter-efficient low-rank adaptation (LoRA). Crucially, we find that the structure of Long CoT is critical to the learning process in this data-efficient fine-tuning process. Training on content-incorrect examples, e.g. those lead to incorrect answers or corrupted digits, still leads to significant performance gains. In contrast, training on structurally incorrect examples, e.g., with shuffled or deleted reasoning steps, yield smaller improvements or even degrade performance.

Anthology ID:: 2025.findings-emnlp.866
Volume:: Findings of the Association for Computational Linguistics: EMNLP 2025
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 15979–15997
Language:
URL:: https://aclanthology.org/2025.findings-emnlp.866/
DOI:
Bibkey:
Cite (ACL):: Dacheng Li, Shiyi Cao, Tyler Griggs, Shu Liu, Xiangxi Mo, Eric Tang, Sumanth Hegde, Kourosh Hakhamaneshi, Shishir G Patil, Matei Zaharia, Joseph E. Gonzalez, and Ion Stoica. 2025. Language Models Can Easily Learn to Reason from Demonstrations. In Findings of the Association for Computational Linguistics: EMNLP 2025, pages 15979–15997, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: Language Models Can Easily Learn to Reason from Demonstrations (Li et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-emnlp.866.pdf
Checklist:: 2025.findings-emnlp.866.checklist.pdf

PDF Cite Search Checklist Fix data