基于不完全标注的自监督多标签文本分类(Self-Training With Incomplete Labeling For Multi-Label Text Classification)

Junfei Ren; Tong Zhu (朱桐); Wenliang Chen

基于不完全标注的自监督多标签文本分类(Self-Training With Incomplete Labeling For Multi-Label Text Classification)

Junfei Ren (任俊飞), Tong Zhu (朱桐), Wenliang Chen (陈文亮)

Abstract

“多标签文本分类((Multi-Label Text Classification, MLTC)旨在从预定义的候选标签集合中选择一个或多个文本对应的类别,是自然语言处理C)旨在从预定义的候选标签集合中选择一个或多个文本对应的类别,是自然语言处理(Natural Language Processing,NLP)的一项基本任务。前人工作大多基于规范且全面的标注数据集,而这些规范数据集需要严格的质量控制,一般很难获取。在真实的标注过程中,难免会丢失掉一些相关标签,进而导致不完全标注问题。为此本文提出了一种基于局部标注的自监督框架(Partial Self-Training,PST),该框架利用教师模型自动地给大规模无标注数据打伪标签,同时给不完全标注数据补充缺失标签,最后再利用这些数据反向更新教师模型。在合成数据集和真实数据集上的实验表明,本文提出的PST框架兼容现有的各类多标签文本分类模型,并且可以缓解不完全标注数据对模型的影响。”

Anthology ID:: 2023.ccl-1.2
Volume:: Proceedings of the 22nd Chinese National Conference on Computational Linguistics
Month:: August
Year:: 2023
Address:: Harbin, China
Editors:: Maosong Sun, Bing Qin, Xipeng Qiu, Jing Jiang, Xianpei Han
Venue:: CCL
SIG:
Publisher:: Chinese Information Processing Society of China
Note:
Pages:: 17–30
Language:: Chinese
URL:: https://aclanthology.org/2023.ccl-1.2/
DOI:
Bibkey:
Cite (ACL):: Junfei Ren, Tong Zhu, and Wenliang Chen. 2023. 基于不完全标注的自监督多标签文本分类(Self-Training With Incomplete Labeling For Multi-Label Text Classification). In Proceedings of the 22nd Chinese National Conference on Computational Linguistics, pages 17–30, Harbin, China. Chinese Information Processing Society of China.
Cite (Informal):: 基于不完全标注的自监督多标签文本分类(Self-Training With Incomplete Labeling For Multi-Label Text Classification) (Ren et al., CCL 2023)
Copy Citation:
PDF:: https://aclanthology.org/2023.ccl-1.2.pdf

PDF Cite Search Fix data