PGA-SciRE:基于大语言模型的数据增强框架进行科学领域的关系(PGA-SciRE:Harnessing LLM on Data Augmentation for Enhancing Scientific Relation Extraction)

Zhou Yang (周洋), Dan Shimin (单世民), Wei Hongkui (魏宏夔), Zhao Zhehuan (赵哲焕), Feng Wenshuo (冯文铄)


Abstract
“关系提取旨在识别文本中提到的实体对之间的关系。大语言模型的进步对自然语言处理任务产生了巨大的影响。在这项工作中,我们针对科学领域的关系抽取任务,提出一个名为PGA的数据增强框架,用于提升模型在科学领域的关系抽取的性能。框架引入了两种数据增强的方式,利用大语言模型通过转述原训练集样本,得到句意相同但具备不同表述和形式的伪样本。以及指导大语言模型根据原训练集样本的关系和实体标签,生成暗含对应标签信息的句子。这两种伪样本分别与原数据集共同参与关系抽取模型的训练。实验中PGA框架提高了三个主流模型的科学领域内关系抽取的F1分数。同时,使用大语言模型获得样本也能有效减少人工标注数据的成本。”
Anthology ID:
2024.ccl-1.27
Volume:
Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference)
Month:
July
Year:
2024
Address:
Taiyuan, China
Editors:
Maosong Sun, Jiye Liang, Xianpei Han, Zhiyuan Liu, Yulan He
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
352–369
Language:
Chinese
URL:
https://aclanthology.org/2024.ccl-1.27/
DOI:
Bibkey:
Cite (ACL):
Zhou Yang, Dan Shimin, Wei Hongkui, Zhao Zhehuan, and Feng Wenshuo. 2024. PGA-SciRE:基于大语言模型的数据增强框架进行科学领域的关系(PGA-SciRE:Harnessing LLM on Data Augmentation for Enhancing Scientific Relation Extraction). In Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference), pages 352–369, Taiyuan, China. Chinese Information Processing Society of China.
Cite (Informal):
PGA-SciRE:基于大语言模型的数据增强框架进行科学领域的关系(PGA-SciRE:Harnessing LLM on Data Augmentation for Enhancing Scientific Relation Extraction) (Yang et al., CCL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.ccl-1.27.pdf