Rethinking Text-to-SQL: Dynamic Multi-turn SQL Interaction for Real-world Database Exploration

Linzhuang Sun; Tianyu Guo; Hao Liang; Ruitong Liu; Yuying Li; Qifeng Cai; Jingxuan Wei; Yuchen Wu; Bihui Yu; Xiangxiang Zhang; Wentao Zhang; Bin Cui

Rethinking Text-to-SQL: Dynamic Multi-turn SQL Interaction for Real-world Database Exploration

Linzhuang Sun, Tianyu Guo, Hao Liang, Ruitong Liu, Yuying Li, Qifeng Cai, Jingxuan Wei, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Wentao Zhang, Bin Cui

Abstract

Recent advancements in Large Language Models (LLMs) have revolutionized Text-to-SQL parsing, achieving remarkable success in static, single-turn query generation. However, a significant disparity remains between these academic benchmarks and real-world utility. In practical applications, such as financial auditing or business analytics, user intents are rarely static; they evolve dynamically through iterative refinement, necessitating not just information retrieval (SELECT) but continuous state manipulation (INSERT, UPDATE, DELETE). To bridge this gap, we introduce DySQL-Bench, a novel benchmark designed to rigorously evaluate LLMs within a dynamic interaction framework. Unlike varying manual curation efforts, DySQL-Bench employs a two-stage automated synthesis pipeline: transforming raw relational schemas into hierarchical logic trees to generate user-database interactions, followed by a rigorous verify-and-refine protocol that ensures 100% distinct correctness via human expert validation. We further propose an interactive evaluation environment simulating a triadic workflow involving an LLM-simulated user, the agent under test, and an executable database system. Spanning 13 diverse domains with 1,072 complex tasks, our experiments reveal that current powerful models struggle in this realistic setting. Notably, GPT-4o achieves only 58.34% overall accuracy and a meager 23.81% on the strict Pass^5 metric, highlighting the substantial challenges DySQL-Bench poses for the future of database agents.

Anthology ID:: 2026.findings-acl.1654
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 33047–33069
Language:
URL:: https://aclanthology.org/2026.findings-acl.1654/
DOI:
Bibkey:
Cite (ACL):: Linzhuang Sun, Tianyu Guo, Hao Liang, Ruitong Liu, Yuying Li, Qifeng Cai, Jingxuan Wei, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Wentao Zhang, and Bin Cui. 2026. Rethinking Text-to-SQL: Dynamic Multi-turn SQL Interaction for Real-world Database Exploration. In Findings of the Association for Computational Linguistics: ACL 2026, pages 33047–33069, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Rethinking Text-to-SQL: Dynamic Multi-turn SQL Interaction for Real-world Database Exploration (Sun et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.1654.pdf
Checklist:: 2026.findings-acl.1654.checklist.pdf

PDF Cite Search Checklist Fix data