Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Benchmark

Mohammad Khodadad; Ali Shiraee Kasmaee; Mahdi Astaraki; Nicholas Sherck; Hamidreza Mahyar; Soheila Samiee

Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Benchmark

Mohammad Khodadad, Ali Shiraee Kasmaee, Mahdi Astaraki, Nicholas Sherck, Hamidreza Mahyar, Soheila Samiee

Abstract

We introduce ChemComp, the first chemistry-focused benchmark for evaluating compositional multi-hop reasoning in large language models (LLMs). Our automated pipeline constructs benchmarks from proprietary or public data by integrating generative reasoning models, chemical named-entity recognition, and external knowledge bases to build knowledge graphs. Applied to recent chemistry literature, this approach minimizes overlap with LLM pretraining data. The resulting dataset comprises 1,188 multi-hop questions, refined through domain-expert feedback and robust evaluation protocols.Using ChemComp, we systematically compare LLM performance with and without retrieval augmentation, including an idealized gold-context scenario. Our results show that even state-of-the-art models struggle with compositional reasoning: retrieval significantly improves accuracy, yet reasoning errors persist even under perfect retrieval. These findings highlight the limitations of current LLMs and the critical role of retrieval-augmented methods in scientific reasoning. Furthermore, our pipeline is generalizable with fine-tuning, enabling the creation of challenging multi-hop reasoning benchmarks across domains and proprietary datasets.

Anthology ID:: 2026.findings-eacl.322
Volume:: Findings of the Association for Computational Linguistics: EACL 2026
Month:: March
Year:: 2026
Address:: Rabat, Morocco
Editors:: Vera Demberg, Kentaro Inui, Lluís Marquez
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 6117–6143
Language:
URL:: https://aclanthology.org/2026.findings-eacl.322/
DOI:
Bibkey:
Cite (ACL):: Mohammad Khodadad, Ali Shiraee Kasmaee, Mahdi Astaraki, Nicholas Sherck, Hamidreza Mahyar, and Soheila Samiee. 2026. Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Benchmark. In Findings of the Association for Computational Linguistics: EACL 2026, pages 6117–6143, Rabat, Morocco. Association for Computational Linguistics.
Cite (Informal):: Evaluating Multi-Hop Reasoning in Large Language Models: A Chemistry-Centric Benchmark (Khodadad et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-eacl.322.pdf
Checklist:: 2026.findings-eacl.322.checklist.pdf

PDF Cite Search Checklist Fix data