SportReason: Evaluating Retrieval-Augmented Reasoning across Tables and Text for Sports Question Answering

Kaiyue Feng; Siyue Zhang; Bingsen Chen; Yilun Zhao; Chen Zhao

doi:10.18653/v1/2025.emnlp-main.34

SportReason: Evaluating Retrieval-Augmented Reasoning across Tables and Text for Sports Question Answering

Kaiyue Feng, Siyue Zhang, Bingsen Chen, Yilun Zhao, Chen Zhao

Abstract

We present SportReason, a benchmark for retrieval-augmented reasoning on numerical sports questions. Unlike existing benchmarks limited to one or two evidence units, SportReason requires combining and reasoning across free-text, structured tables, and semi-structured infoboxes. We provide 3,000 human-verified QA pairs by repurposing existing QA and table generation datasets, and by prompting large language models (LLMs). Each pair is grounded in multiple evidence from a multi-modal Wikipedia corpus containing 200K knowledge contexts. We evaluate existing retrievers and rerankers, along with agentic Retrieval-Augmented Generation (RAG) systems. The experimental results show that multi-evidence retrieval remains a challenge. Agentic RAG systems (e.g., Search-o1), despite iterative retrieval and reasoning capabilities, fail to improve performance due to imprecise queries, simple training, and distracting information.

Anthology ID:: 2025.emnlp-main.34
Volume:: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing
Month:: November
Year:: 2025
Address:: Suzhou, China
Editors:: Christos Christodoulopoulos, Tanmoy Chakraborty, Carolyn Rose, Violet Peng
Venue:: EMNLP
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 649–662
Language:
URL:: https://aclanthology.org/2025.emnlp-main.34/
DOI:: 10.18653/v1/2025.emnlp-main.34
Bibkey:
Cite (ACL):: Kaiyue Feng, Siyue Zhang, Bingsen Chen, Yilun Zhao, and Chen Zhao. 2025. SportReason: Evaluating Retrieval-Augmented Reasoning across Tables and Text for Sports Question Answering. In Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 649–662, Suzhou, China. Association for Computational Linguistics.
Cite (Informal):: SportReason: Evaluating Retrieval-Augmented Reasoning across Tables and Text for Sports Question Answering (Feng et al., EMNLP 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.emnlp-main.34.pdf
Checklist:: 2025.emnlp-main.34.checklist.pdf

PDF Cite Search Checklist Fix data