Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization

Tian Xueyun; MingHua Ma; Bingbing Xu; Nuoyan Lyu; Wei Li; Heng Dong; Zheng Chu; Yuanzhuo Wang; Huawei Shen (沈华伟)

Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization

Tian Xueyun, MingHua Ma, Bingbing Xu, Nuoyan Lyu, Wei Li, Heng Dong, Zheng Chu, Yuanzhuo Wang, Huawei Shen

Abstract

Supervised fine-tuning (SFT) on chain-of-thought (CoT) trajectories demonstrations is a common approach for enabling reasoning in large language models. Standard practices typically only retain trajectories with correct final answers (*positives*) while ignoring the rest (*negatives*). We argue that this paradigm discards substantial supervision and exacerbates overfitting, limiting out-of-domain (OOD) generalization. Specifically, we surprisingly find that incorporating *negative* trajectories into SFT yields substantial OOD generalization gains over *positive-only* training, as these trajectories often retain valid intermediate reasoning despite incorrect final answers. To understand this effect in depth, we systematically analyze data, training dynamics, and inference behavior, identifying 22 recurring patterns in negative chains that serve a dual role: they moderate loss descent to mitigate overfitting during training and boost policy entropy by 35.67% during inference to facilitate exploration. Motivated by these observations, we further propose **Gain-based LOss Weighting** (GLOW), an adaptive, sample-aware scheme that exploits such distinctive training dynamics by rescaling per-sample loss based on inter-epoch progress. Empirically, GLOW efficiently leverages unfiltered trajectories, yielding a 5.51% OOD gain over positive-only SFT on Qwen2.5-7B and boosting MMLU from 72.82% to 76.47% as an RL initialization. Code is available at [Github](https://github.com/Eureka-Maggie/GLOW).

Anthology ID:: 2026.acl-long.1370
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 29689–29711
Language:
URL:: https://aclanthology.org/2026.acl-long.1370/
DOI:
Bibkey:
Cite (ACL):: Tian Xueyun, MingHua Ma, Bingbing Xu, Nuoyan Lyu, Wei Li, Heng Dong, Zheng Chu, Yuanzhuo Wang, and Huawei Shen. 2026. Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 29689–29711, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Learning from Mistakes: Negative Reasoning Samples Enhance Out-of-Domain Generalization (Xueyun et al., ACL 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.acl-long.1370.pdf
Checklist:: 2026.acl-long.1370.checklist.pdf

PDF Cite Search Checklist Fix data