DocTalk: Scalable Graph-based Dialogue Synthesis for Enhancing LLM Conversational Capabilities

Jing Yang JY Lee; Hamed Bonab; Nasser Zalmout; Ming Zeng; Sanket Lokegaonkar; Colin Lockard; Binxuan Huang; Ritesh Sarkhel; Haodong Wang

DocTalk: Scalable Graph-based Dialogue Synthesis for Enhancing LLM Conversational Capabilities

Jing Yang JY Lee, Hamed Bonab, Nasser Zalmout, Ming Zeng, Sanket Lokegaonkar, Colin Lockard, Binxuan Huang, Ritesh Sarkhel, Haodong Wang

Abstract

Large Language Models (LLMs) are increasingly employed in multi-turn conversational tasks, yet their pre-training data predominantly consists of continuous prose, creating a potential mismatch between required capabilities and training paradigms. We introduce a novel approach to address this discrepancy by synthesizing conversational data from existing text corpora. We present a pipeline that transforms a cluster of multiple related documents into an extended multi-turn, multi-topic information-seeking dialogue. Applying our pipeline to Wikipedia articles, we curate DocTalk, a multi-turn pre-training dialogue corpus consisting of over 730k long conversations. We hypothesize that exposure to such synthesized conversational structures during pre-training can enhance the fundamental multi-turn capabilities of LLMs, such as context memory and understanding. Empirically, we show that incorporating DocTalk during pre-training results in up to 40% gain in context memory and understanding, without compromising base performance. DocTalk is available at https://huggingface.co/datasets/AmazonScience/DocTalk.

Anthology ID:: 2025.sigdial-1.53
Volume:: Proceedings of the 26th Annual Meeting of the Special Interest Group on Discourse and Dialogue
Month:: August
Year:: 2025
Address:: Avignon, France
Editors:: Frédéric Béchet, Fabrice Lefèvre, Nicholas Asher, Seokhwan Kim, Teva Merlin
Venue:: SIGDIAL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 658–677
Language:
URL:: https://aclanthology.org/2025.sigdial-1.53/
DOI:
Bibkey:
Cite (ACL):: Jing Yang JY Lee, Hamed Bonab, Nasser Zalmout, Ming Zeng, Sanket Lokegaonkar, Colin Lockard, Binxuan Huang, Ritesh Sarkhel, and Haodong Wang. 2025. DocTalk: Scalable Graph-based Dialogue Synthesis for Enhancing LLM Conversational Capabilities. In Proceedings of the 26th Annual Meeting of the Special Interest Group on Discourse and Dialogue, pages 658–677, Avignon, France. Association for Computational Linguistics.
Cite (Informal):: DocTalk: Scalable Graph-based Dialogue Synthesis for Enhancing LLM Conversational Capabilities (Lee et al., SIGDIAL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.sigdial-1.53.pdf

PDF Cite Search Fix data