Song Peiyan
Also published as: 培彦 宋
2024
融合半监督学习与同义计算的传染病名称自动映射研究(A study on automatic mapping of infectious disease names by integrating semi-supervised learning and tautology computation)
Song Peiyan (宋培彦)
|
Yang Qingxiang (杨青香)
|
Hu Boshen (胡博深)
|
Du Boya (杜博雅)
Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference)
“医学古籍蕴含着丰富的专业知识,然而由于古代疾病名称、术语与现代标准表述不一致等问题,严重影响了公共卫生知识组织和服务质量,现有研究主要采用专家手工映射、词义计算等方式解决,存在着工作效率和准确率偏低等问题,以古籍术语辞典作为语料进行挖掘、建立传统医学术语与现代医学术语的同义关系,并映射到国际规范,形成“古-今-外”三语互通的知识库是可行方法。为此,本文以知识组织和知识发现理论为基础,设计了古今疾病名称跨语言自动映射方法,并以传染性疾病名称为例进行验证。具体过程是:首先,利用snowball算法抽取古今疾病名称同义模式,获取了12个与传染性疾病相关的疾病名称关系模式和134个同义词对。其次,依据桑基图从关联性、成熟度和延展性3个角度分析疾病名称历时演变进行可视化关联分析。同时,结合sapbert向量和余弦相似度将传统医学疾病名称向ICD-11国际标准映射,经过人工验证映射结果达到0.23的hit@1、0.42的hit@5以及0.61的hit@10。本文发现,通过专业辞典语料,可以抽取疾病名称的语言变异情况,提高同义术语的发现效率,为构建专业知识库提供更多的入口词和语义关联性,缓解信息孤岛问题。研究还表明,以辞典中的现代医学术语名称作为映射起点,关联到ICD-11国际规范,为开展跨语言领域知识工程建设提供参考,对实现专业知识“古为今用”和国际传播也具有重要现实意义。”