DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

Shidong Cao; Hongzhan Lin; Yuxuan Gu; Ziyang Luo; Jing Ma

DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs

Shidong Cao, Hongzhan Lin, Yuxuan Gu, Ziyang Luo, Jing Ma

Abstract

Chain-of-Thought (CoT) reasoning improves multi-step mathematical problem solving in large language models but remains vulnerable to exposure bias and error accumulation, as early mistakes propagate irreversibly through autoregressive decoding. In this work, we propose DiffCoT, a diffusion-styled CoT framework that reformulates CoT reasoning as an iterative denoising process. DiffCoT integrates diffusion principles at the reasoning-step level via a sliding-window mechanism, enabling unified generation and retrospective correction of intermediate steps while preserving token-level autoregression. To maintain causal consistency, we further introduce a causal diffusion noise schedule that respects the temporal structure of reasoning chains. Extensive experiments on three multi-step CoT reasoning benchmarks across diverse model backbones demonstrate that DiffCoT consistently outperforms existing CoT preference optimization methods, yielding improved robustness and error-correction capability in CoT reasoning.

Anthology ID:: 2026.findings-acl.1939
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 38942–38957
Language:
URL:: https://aclanthology.org/2026.findings-acl.1939/
DOI:
Bibkey:
Cite (ACL):: Shidong Cao, Hongzhan Lin, Yuxuan Gu, Ziyang Luo, and Jing Ma. 2026. DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs. In Findings of the Association for Computational Linguistics: ACL 2026, pages 38942–38957, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: DiffCoT: Diffusion-styled Chain-of-Thought Reasoning in LLMs (Cao et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.1939.pdf
Checklist:: 2026.findings-acl.1939.checklist.pdf

PDF Cite Search Checklist Fix data