Domain-Specific Data Generation Framework for RAG Adaptation

Chris Xing Tian; Weihao Xie; Zhen Chen; Hui Liu; Zhengyuan Yi; Haoliang Li; Shiqi Wang; Siwei Ma

Domain-Specific Data Generation Framework for RAG Adaptation

Chris Xing Tian, Weihao Xie, Zhen Chen, Hui Liu, Zhengyuan Yi, Haoliang Li, Shiqi Wang, Siwei Ma

Abstract

Retrieval-Augmented Generation (RAG) combines the language understanding and reasoning capabilities of large language models (LLMs) with external retrieval to produce domain-grounded responses. Effectively adapting RAG systems to domain-specific settings requires specialized, context-rich training data beyond general-purpose question-answering datasets. Here, we propose RAGen, a scalable and modular data-centric framework for generating domain-grounded question–answer–context (QAC) triples tailored to diverse RAG adaptation strategies. These QAC triples serve as training signals for multiple RAG adaptation approaches; in this work, we demonstrate their use for contrastive fine-tuning of embedding models and supervised fine-tuning of LLMs under retrieved contexts. RAGen generates QAC triples by identifying key concepts within documents, producing diverse questions guided by Bloom’s Taxonomy–inspired principles, and pairing them with precise answers extracted from relevant contexts. Its modular pipeline incorporates semantic chunking, hierarchical concept extraction, multi-chunk retrieval, and curated distractor contexts to encourage robust reasoning. Designed for scalability, RAGen efficiently handles large and evolving document corpora without redundant processing, making it particularly suitable for dynamic domains like enterprise knowledge bases.

Anthology ID:: 2026.findings-acl.960
Volume:: Findings of the Association for Computational Linguistics: ACL 2026
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Maria Liakata, Viviane P. Moreira, Jiajun Zhang, David Jurgens
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 19236–19250
Language:
URL:: https://aclanthology.org/2026.findings-acl.960/
DOI:
Bibkey:
Cite (ACL):: Chris Xing Tian, Weihao Xie, Zhen Chen, Hui Liu, Zhengyuan Yi, Haoliang Li, Shiqi Wang, and Siwei Ma. 2026. Domain-Specific Data Generation Framework for RAG Adaptation. In Findings of the Association for Computational Linguistics: ACL 2026, pages 19236–19250, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: Domain-Specific Data Generation Framework for RAG Adaptation (Tian et al., Findings 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.findings-acl.960.pdf
Checklist:: 2026.findings-acl.960.checklist.pdf

PDF Cite Search Checklist Fix data