Aiwen Jiang
2025
基于自提示多模态大语言模型和语义感知离散扩散模型的图像描述生成算法
Yufeng Chen | Aiwen Jiang | Qi Huang | Mingwen Wang
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Yufeng Chen | Aiwen Jiang | Qi Huang | Mingwen Wang
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
"近年来,非自回归图像描述生成技术凭借其双向传播和并行词语生成的能力受到广泛关注。与此同时,基于离散扩散方法的研究也取得了显著进展。然而,在离散噪声添加与去噪过程中,现有方法仍面临图像文本关联性低、目标物体遗漏、描述准确性不足以及词语重复等关键问题。为应对这些挑战,我们提出一种基于语义感知的离散扩散模型。该模型通过可学习查询机制构建语义感知模块,以捕捉与图像物体级语义特征的潜在关联从而更好地生成图像描述。在此基础模型之上,我们进一步引入自提示优化框架,利用大语言模型生成与图像细节内容更相符的丰富描述。在COCO数据集上的综合实验表明,本方法在图像描述任务中取得一定的提升,其性能优于现有的相关方法。"
基于细粒度时空建模的语音驱动手势生成模型
Haocong Wan | Changhong Liu | Hai Yang | Aiwen Jiang | Mingwen Wang
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
Haocong Wan | Changhong Liu | Hai Yang | Aiwen Jiang | Mingwen Wang
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
"语音驱动手势生成技术根据输入的语音自动生成丰富的虚拟角色动作,在数字动画、虚拟现实和人机交互等领域具有广泛的应用前景。虽然现有方法在时序连贯性方面取得一定进展,但由于缺乏对关节间局部交互的显式建模,生成的肢体动作往往存在机械感且缺乏自然性。针对这一问题,提出一种基于细粒度时空注意力的扩散模型,从细粒度层面建模骨架关节点间的动态依赖关系。具体而言,设计了一种时空Transformer,其中空间注意力层显式建模了关节间的空间结构关系,而时序注意力层捕获手势运动的动态性。此外,通过自适应实例归一化技术AdaIN引入说话者身份控制,实现个性化手势生成。在BEAT、BEAT2和SHOW数据集上验证了所提模型的有效性。"