From Implicit to Explicit: Token-Efficient Logical Supervision for Mathematical Reasoning in LLMs

Shaojie Wang; Liang Zhang

From Implicit to Explicit: Token-Efficient Logical Supervision for Mathematical Reasoning in LLMs

Abstract

Recent studies reveal that large language models (LLMs) exhibit limited logical reasoning abilities in mathematical problem-solving, instead often relying on pattern-matching and memorization. We systematically analyze this limitation, focusing on logical relationship understanding, which is a core capability underlying genuine logical reasoning, and reveal that errors related to this capability account for over 90% of incorrect predictions, with Chain-of-Thought Supervised Fine-Tuning (CoT-SFT) failing to substantially reduce these errors. To address this bottleneck, we propose **F**irst-**S**tep **L**ogical **R**easoning (**FSLR**), a lightweight training framework targeting logical relationship understanding. Our key insight is that the first planning step-identifying which variables to use and which operation to apply-encourages the model to derive logical relationships directly from the problem statement. By training models on this isolated step, FSLR provides explicit supervision for logical relationship understanding, unlike CoT-SFT which implicitly embeds such relationships within complete solution trajectories. Extensive experiments across multiple models and datasets demonstrate that FSLR consistently outperforms CoT-SFT under both in-distribution and out-of-distribution settings, with average improvements of 3.2% and 4.6%, respectively. Moreover, FSLR achieves 4-6× faster training and reduces training token consumption by over 80%.

Anthology ID:: 2026.findings-acl.1420
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 28486–28500
Language:
URL:: https://aclanthology.org/2026.findings-acl.1420/
DOI:
Bibkey:
Cite (ACL):: Shaojie Wang and Liang Zhang. 2026. From Implicit to Explicit: Token-Efficient Logical Supervision for Mathematical Reasoning in LLMs. In Findings of the Association for Computational Linguistics: ACL 2026, pages 28486–28500, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: From Implicit to Explicit: Token-Efficient Logical Supervision for Mathematical Reasoning in LLMs (Wang & Zhang, Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.1420.pdf
Checklist:: 2026.findings-acl.1420.checklist.pdf

PDF Cite Search Checklist Fix data