SLAM-Omni: Timbre-Controllable Voice Interaction System with Single-Stage Training

Wenxi Chen; Ziyang Ma; Ruiqi Yan; Yuzhe Liang; Xiquan Li; Ruiyang Xu; Zhikang Niu; Yanqiao Zhu; Yifan Yang; Zhanxun Liu; Kai Yu; Yuxuan Hu; Jinyu Li; Yan Lu; Shujie Liu; Xie Chen

doi:10.18653/v1/2025.findings-acl.115

SLAM-Omni: Timbre-Controllable Voice Interaction System with Single-Stage Training

Wenxi Chen, Ziyang Ma, Ruiqi Yan, Yuzhe Liang, Xiquan Li, Ruiyang Xu, Zhikang Niu, Yanqiao Zhu, Yifan Yang, Zhanxun Liu, Kai Yu, Yuxuan Hu, Jinyu Li, Yan Lu, Shujie Liu, Xie Chen

Abstract

Recent advancements highlight the potential of end-to-end real-time spoken dialogue systems, showcasing their low latency and high quality. In this paper, we introduce SLAM-Omni, a timbre-controllable, end-to-end voice interaction system with single-stage training. SLAM-Omni achieves zero-shot timbre control by modeling spoken language with semantic tokens and decoupling speaker information to a vocoder. By predicting grouped speech semantic tokens at each step, our method significantly reduces the sequence length of audio tokens, accelerating both training and inference. Additionally, we propose historical text prompting to compress dialogue history, facilitating efficient multi-round interactions. Comprehensive evaluations reveal that SLAM-Omni outperforms prior models of similar scale, requiring only 15 hours of training on 4 GPUs with limited data. Notably, it is the first spoken dialogue system to achieve competitive performance with a single-stage training approach, eliminating the need for pre-training on TTS or ASR tasks. Further experiments validate its multilingual and multi-turn dialogue capabilities on larger datasets.

Anthology ID:: 2025.findings-acl.115
Volume:: Findings of the Association for Computational Linguistics: ACL 2025
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: Findings
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 2262–2282
Language:
URL:: https://aclanthology.org/2025.findings-acl.115/
DOI:: 10.18653/v1/2025.findings-acl.115
Bibkey:
Cite (ACL):: Wenxi Chen, Ziyang Ma, Ruiqi Yan, Yuzhe Liang, Xiquan Li, Ruiyang Xu, Zhikang Niu, Yanqiao Zhu, Yifan Yang, Zhanxun Liu, Kai Yu, Yuxuan Hu, Jinyu Li, Yan Lu, Shujie Liu, and Xie Chen. 2025. SLAM-Omni: Timbre-Controllable Voice Interaction System with Single-Stage Training. In Findings of the Association for Computational Linguistics: ACL 2025, pages 2262–2282, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: SLAM-Omni: Timbre-Controllable Voice Interaction System with Single-Stage Training (Chen et al., Findings 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.findings-acl.115.pdf

PDF Cite Search Fix data