Beyond Rejection Sampling: Trajectory Fusion for Scaling Mathematical Reasoning

Jie Deng; Hanshuang Tong; Jun Li (李俊); Shining Liang; Ning Wu; Hongzhi Li; Yutao Xie

Beyond Rejection Sampling: Trajectory Fusion for Scaling Mathematical Reasoning

Jie Deng, Hanshuang Tong, Jun Li, Shining Liang, Ning Wu, Hongzhi Li, Yutao Xie

Abstract

Large language models (LLMs) have made impressive strides in mathematical reasoning, often fine-tuned using rejection sampling, which retains only correct reasoning trajectories. While effective, this paradigm treats supervision as a binary filter that systematically excludes teacher-generated errors, leaving a gap in how reasoning failures are modeled during training. In this paper, we propose TrajFusion, a fine-tuning strategy that reframes rejection sampling as a structured supervision construction process. Specifically, TrajFusion forms fused trajectories that explicitly model trial-and-error reasoning by interleaving selected incorrect trajectories with reflection prompts and correct trajectories. The length of the fused sample is adaptively controlled based on the frequency and diversity of teacher errors, providing richer supervision for challenging problems while safely reducing to vanilla rejection sampling fine-tuning (RFT) when error signals are uninformative. TrajFusion requires no changes to the architecture or training objective. Extensive experiments across multiple math benchmarks demonstrate that TrajFusion consistently outperforms RFT, particularly on challenging and long-form reasoning problems.

Anthology ID:: 2026.findings-acl.390
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 7943–7959
Language:
URL:: https://aclanthology.org/2026.findings-acl.390/
DOI:
Bibkey:
Cite (ACL):: Jie Deng, Hanshuang Tong, Jun Li, Shining Liang, Ning Wu, Hongzhi Li, and Yutao Xie. 2026. Beyond Rejection Sampling: Trajectory Fusion for Scaling Mathematical Reasoning. In Findings of the Association for Computational Linguistics: ACL 2026, pages 7943–7959, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Beyond Rejection Sampling: Trajectory Fusion for Scaling Mathematical Reasoning (Deng et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.390.pdf
Checklist:: 2026.findings-acl.390.checklist.pdf

PDF Cite Search Checklist Fix data