Yonghong Ke

Also published as: 永红


2025

"古汉语自动分词是古籍数字化和智能化处理的关键环节,但古汉语在数千年演变过程中呈现出显著的历时性差异,对构建通用的分词模型构成了严峻挑战。为应对这一挑战,本研究构建了一个覆盖上古、中古及近代三个主要历史时期的大规模古汉语分词标注语料库,在此基础上,本文提出了一种基于时期嵌入(Period Embedding)的古汉语历时分词模型‘RoBERTa-PeriodEmb-Fusion-CRF‘ 。该模型以预训练语言模型‘roberta-classical-chinese-large-char‘ 为骨干,通过引入可学习的时期向量来感知文本的时代背景,并设计了非线性融合层以有效整合时期信息与上下文语义表示,最后结合条件随机场(CRF)进行序列解码。在构建的历时语料库上的大量实验结果表明,与不包含时期信息的强基线模型相比,本文提出的模型在整体分词性能(F1值达到0.9505)以及跨时期文本的适应性上均取得了显著提升。本研究不仅验证了显式建模时期信息对于提升古汉语分词效能的重要性,也为构建高性能、通用的古汉语处理工具提供了有益的思路和数据支持。"

2024

“针对国内尚无开放的大规模上古汉语分词及词性标注语料库可用的问题,提出以人工为主+机器辅助的标注模式,构建一个包括46部文献的上古汉语分词及词性标记语料库。描述了语料选择、文本分词、词性标注和质量控制等建库过程,分析了该语料库词长、词频、词用等分布,评估了标注质量。已经完成标注的语料库包括323余万字、217万余词。与EvaHan2022基测集和盲测集的分词、词性标注一致度分别为93.70%、89.49%和92.83%、89.86%。该语料库可用于古汉语研究、辞书编撰、语言教学、人工智能等多个领域。”
Search
Co-authors
    Venues
    Fix author