基于义原表示学习的词向量表示方法(Word Representation based on Sememe Representation Learning)

Ning Yu (于宁), Jiangping Wang (王江萍), Yu Shi (石宇), Jianyi Liu (刘建毅)


Abstract
本文利用知网(HowNet)中的知识,并将Word2vec模型的结构和思想迁移至义原表示学习过程中,提出了一个基于义原表示学习的词向量表示方法。首先,本文利用OpenHowNet获取义原知识库中的所有义原、所有中文词汇以及所有中文词汇和其对应的义原集合,作为实验的数据集。然后,基于Skip-gram模型,训练义原表示学习模型,进而获得词向量。最后,通过词相似度任务、词义消歧任务、词汇类比和观察最近邻义原,来评价本文提出的方法获取的词向量的效果。通过和基线模型比较,发现本文提出的方法既高效又准确,不依赖大规模语料也不需要复杂的网络结构和繁多的参数,也能提升各种自然语言处理任务的准确率。
Anthology ID:
2021.ccl-1.6
Volume:
Proceedings of the 20th Chinese National Conference on Computational Linguistics
Month:
August
Year:
2021
Address:
Huhhot, China
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
57–65
Language:
Chinese
URL:
https://aclanthology.org/2021.ccl-1.6
DOI:
Bibkey:
Cite (ACL):
Ning Yu, Jiangping Wang, Yu Shi, and Jianyi Liu. 2021. 基于义原表示学习的词向量表示方法(Word Representation based on Sememe Representation Learning). In Proceedings of the 20th Chinese National Conference on Computational Linguistics, pages 57–65, Huhhot, China. Chinese Information Processing Society of China.
Cite (Informal):
基于义原表示学习的词向量表示方法(Word Representation based on Sememe Representation Learning) (Yu et al., CCL 2021)
Copy Citation:
PDF:
https://aclanthology.org/2021.ccl-1.6.pdf