Changhong Liu
2025
基于细粒度时空建模的语音驱动手势生成模型
Haocong Wan | Changhong Liu | Hai Yang | Aiwen Jiang | Mingwen Wang
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Haocong Wan | Changhong Liu | Hai Yang | Aiwen Jiang | Mingwen Wang
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
"语音驱动手势生成技术根据输入的语音自动生成丰富的虚拟角色动作,在数字动画、虚拟现实和人机交互等领域具有广泛的应用前景。虽然现有方法在时序连贯性方面取得一定进展,但由于缺乏对关节间局部交互的显式建模,生成的肢体动作往往存在机械感且缺乏自然性。针对这一问题,提出一种基于细粒度时空注意力的扩散模型,从细粒度层面建模骨架关节点间的动态依赖关系。具体而言,设计了一种时空Transformer,其中空间注意力层显式建模了关节间的空间结构关系,而时序注意力层捕获手势运动的动态性。此外,通过自适应实例归一化技术AdaIN引入说话者身份控制,实现个性化手势生成。在BEAT、BEAT2和SHOW数据集上验证了所提模型的有效性。"