Jia Cairang

Also published as:才让


2022

“诗歌自动写作研究是自然语言生成的一个重要研究领域,被认为是极具挑战且有趣的任务之一。本文提出一种基于预训练及控制码法的藏文律诗生成方法。在藏文预训练语言模型上进行微调后生成质量显著提升,然而引入控制码法后在很大程度上确保了扣题程度,即关键词在生成诗作中的平均覆盖率居高。此外,在生成诗作中不仅提高词汇的丰富性,而且生成结果的多样性也明显提升。经测试表明,基于预训练及控制码法的生成方法显著优于基线方法。”
“近年来,预训练方法在自然语言处理领域引起了广泛关注,但是在比如藏汉机器等低资源的任务设定下,由于双语监督信息无法直接参与预训练,限制了预训练模型在此类任务上的性能改进。考虑到双语词典是丰富且廉价的先验翻译知识来源,同时受到跨语言交流中人们往往会使用混合语言增加以沟通效率这一现象启发,本文提出一种基于词典注入的藏汉机器翻译模型的预训练方法,为预训练提供学习双语知识关联的广泛可能。经验证,该方法在藏汉和汉藏翻译方向测试集上的 BLEU 值比 BART 强基准分别高出 2.3 和 2.1,证实了本文所提出的方法在藏汉机器翻译任务上的有效性。”