Wang Ruojin
Also published as: 若锦 王
2024
英语科技论文摘要语步结构语料库构建研究(Research on Construction of Corpus for Move Structures in Abstracts of English Scientific Research Articles)
Li Hongzheng (李洪政)
|
Wang Ruojin (王若锦)
|
Feng Chong (冯冲)
|
Liu Fang (刘芳)
Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference)
“语步结构是学术论文中的文本语篇单位,在语步分析、论文写作等方面具有重要价值。尽管关于学术论文的语步研究非常丰富,但语步标注数据资源仍然相对较少。本研究开发构建了一个英语科技论文摘要语步结构标注语料库,目前已标注近3.4万个语步结构,涵盖了自然语言处理、计算机视觉、通信工程、机械工程等学科领域,同时进行了标注数据统计和分析。语料库构建的第一阶段依靠人工标注形成高质量语料,在第二阶段也是主要阶段,采用了基于BERT的自动识别与标注模型,在保证标注质量的同时能够提升标注速度,扩大标注规模。本研究基于构建的语料库开展了不同学科领域摘要语步结构识别实验,对比了我们的模型与ChatGPT和Claude3等大语言模型的识别效果。结果显示我们的模型在各类语步识别上的F1指标均优于大语言模型,表明了模型的有效性。该语料库目前可公开获取使用,能够为科技论文信息抽取、英语写作智能批改等自然语言处理相关任务和学术用途英语等外语教学与研究等提供必要的数据资源,同时也能有效推动外语教育数字化转型。”