Xiaodong Yan


2023

pdf bib
基于端到端预训练模型的藏文生成式文本摘要(Abstractive Summarization of Tibetan Based on end-to-end Pre-trained Model)
Shuo Huang (黄硕) | Xiaodong Yan (闫晓东) | Xinpeng OuYang (欧阳新鹏) | Jinpeng Yang (杨金鹏)
Proceedings of the 22nd Chinese National Conference on Computational Linguistics

“近年来,预训练语言模型受到了广泛的关注,这些模型极大地促进了自然语言处理在不同下游任务中的应用。文本摘要作为自然语言处理中的一个重要分支,可以有效的减少冗余信息,从而提高浏览文本速度。藏文作为低资源语言,缺乏用于大规模的训练语料,藏文生成式文本摘要研究还处于起步阶段,为了解决藏文生成式文本摘要的问题,本文首次提出将端到端的预训练语言模型CMPT(Chinese Minority Pre-Trained Language Model)用于藏文生成式文本摘要研究,CMPT模型通过对其他不同低资源语言文本进行去噪和对比学习,同时为了提高编码器的理解能力,在编码器的输出层增加一个单层掩码语言模型(MLM)解码器,进行Seq2Seq的生成和理解的联合预训练。通过进一步微调可以有效地提高在藏文文本摘要任务上的性能。为了验证模型的性能,我们在自己构建的5w条藏文文本摘要数据集和公开数据集Ti-SUM上进行实验,在两个数据集上的实验表明,我们提出的方法在藏文生成式文本摘要的评测指标上有显著提升。同时,该方法不仅可以应用于藏文文本摘要任务,也可以拓展到其他语言的文本摘要任务中,具有较好的推广价值。”

2020

pdf bib
基于子词级别词向量和指针网络的朝鲜语句子排序(Korean Sentence Ordering Based on Sub Word Level Word Vector and Pointer Network)
Xiaodong Yan (闫晓东) | Xiaoqing Xie (解晓庆)
Proceedings of the 19th Chinese National Conference on Computational Linguistics

句子排序是多文档摘要系统和机器阅读理解中重要的任务之一,排序的质量将直接 影响摘要和答案的连贯性与可读性。因此,本文采用在中英文上大规模使用的深度 学习方法,同时结合朝鲜语词语形态变化丰富的特点,提出了一种基于子词级别词 向量和指针网络的朝鲜语句子排序模型,其目的是解决传统方法无法挖掘深层语义 信息问题。 本文提出基于形态素拆分的词向量训练方法(MorV),同时对比子词n元 词向量训练方法(SG),得到朝鲜语词向量;采用了两种句向量方法:基于卷积神经网 络(CNN)、基于长短时记忆网络(LSTM),结合指针网络分别进行实验。结果表明本文 采用MorV和LSTM的句向量结合方法可以更好地捕获句子间的语义逻辑关系,提升句 子排序的效果。 关键词: 词向量 ;形态素拆分 ;指针网络 ;句子排序

pdf bib
基于统一模型的藏文新闻摘要(Abstractive Summarization of Tibetan News Based on Hybrid Model)
Xiaodong Yan (闫晓东) | Xiaoqing Xie (解晓庆) | Yu Zou (邹煜) | Wei Li (李维)
Proceedings of the 19th Chinese National Conference on Computational Linguistics

Seq2seq神经网络模型在中英文文本摘要的研究中取得了良好的效果,但在低资源语言的文本摘要研究还处于探索阶段,尤其是在藏语中。此外,目前还没有大规模的标注语料库进行摘要提取。本文提出了一种生成藏文新闻摘要的统一模型。利用TextRank算法解决了藏语标注训练数据不足的问题。然后,采用两层双GRU神经网络提取代表原始新闻的句子,减少冗余信息。最后,使用基于注意力机制的Seq2Seq来生成理解式摘要。同时,我们加入了指针网络来处理未登录词的问题。实验结果表明,ROUGE-1评分比传统模型提高了2%。 关键词:文本摘要;藏文;TextRank; 指针网络;Bi-GRU