Jinchao Tian

2025

Ti-MISO:基于TiLamb的藏文多模态生成式文本摘要
巩鑫巩鑫 | Xiaodong Yan | 常浩远常浩远 | Jinchao Tian
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)

"为了解决现有单一文本特征生成的藏文摘要质量较低的问题 , 提出了一种基于TiLamb的多模态生成式文本摘要模型——Ti-MISO。该模型采用ViT(Vision Transformer)模型从图像中提取视觉特征,同时利用预训练微调的TiLamb(Tibetan Large Language Model Base)模型提取藏文文本特征,再通过跨模态交叉注意力机制实现图文特征深层次融合,最终将融合的特征送入模型,借助束搜索算法平衡生成质量更高的摘要。为验证方法有效性,与基于相同语料的其他四种模型进行了对比实验。实验结果表明,Ti-MISO在ROUGE-1、ROUGE-2、ROUGE-L和BLEU四项评价指标上均取得最佳成绩,显示出模型在融合视觉与语言信息、提升摘要质量方面的显著优势。此外,通过一系列消融实验进一步验证了采用ViT模型进行图像特征提取及交叉注意力融合策略的重要性。加入图像信息后采用交叉注意力机制进行特征融合,使融合后的特征保留更多关键信息,帮助模型更加精确地捕捉重点,从而生成的摘要在概括性和可读性上都有明显提升。"

Co-authors

Venues

CCL1

Fix author