基于神经编解码语言模型的老挝语韵律建模方法(A Method for Lao Prosody Modeling Based on Neural Codec Language Model)

Yi Ningjing (易宁静), Wang Linqin (王琳钦), Gao Shengxiang (高盛祥), Yu Zhengtao (余正涛)


Abstract
“为了赋予合成语音类似人类语言的丰富韵律和节奏变化,现有方法普遍采用基于随机数的时长预测器。这些方法通过使用随机数初始化的潜在变量来模拟人类说话的多样节奏变化。然而,由于依赖于随机数噪声的局限性,这些方法合成的语音往往仍然缺乏真实语音的多样性和韵律变化的丰富性。与之前方法不同,本文提出了一种基于神经编解码语言模型(VALL-E)的韵律建模方法,本文利用先验速度和音调时序变化曲线建模韵律变化分布,有效融入神经编解码语言模型训练过程中,并且在推理阶段可通过控制先验时序曲线控制生成语音的韵律。实验证明,本文方法合成英语音频达到了4.05的MOS评分,合成老挝语音频达到了3.61的MOS评分。基于神经编解码语言模型的老挝语韵律建模方法,能很好的在速度和音调方面实现韵律的可控性。”
Anthology ID:
2024.ccl-1.21
Volume:
Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference)
Month:
July
Year:
2024
Address:
Taiyuan, China
Editors:
Maosong Sun, Jiye Liang, Xianpei Han, Zhiyuan Liu, Yulan He
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
280–289
Language:
Chinese
URL:
https://aclanthology.org/2024.ccl-1.21/
DOI:
Bibkey:
Cite (ACL):
Yi Ningjing, Wang Linqin, Gao Shengxiang, and Yu Zhengtao. 2024. 基于神经编解码语言模型的老挝语韵律建模方法(A Method for Lao Prosody Modeling Based on Neural Codec Language Model). In Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference), pages 280–289, Taiyuan, China. Chinese Information Processing Society of China.
Cite (Informal):
基于神经编解码语言模型的老挝语韵律建模方法(A Method for Lao Prosody Modeling Based on Neural Codec Language Model) (Ningjing et al., CCL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.ccl-1.21.pdf