Zhimin Wang

Also published as: 治敏


2024

“近年来,运用复杂网络方法进行语言学研究已成为数字人文研究的一条新路径。本文基于214篇日本汉语学习者的书面作文,构建了6个不同能力水平的汉语中介语词同现网络,并探讨了这些网络的结构特性及其动态演变过程。研究结果显示,所有的汉语中介语词同现网络均呈现出小世界属性、无标度属性、异配性和层级结构等复杂网络的特性。这些特性揭示了汉语学习者在词汇使用方面的特定模式:低水平学习者更倾向于将低频词汇与高频词汇进行连接,这可能与学习者减轻认知负荷的习得模式有关;学习者语言水平的提升,中介语网络参数会逐渐向母语者靠拢,但是无法达到母语者的水平;此外,本研究还观察到,语言错误会对中介语网络结构产生影响,引起网络结构的变异。”
“Chinese sentence simplification faces challenges due to the lack of large-scale labeledparallel corpora and the prevalence of idioms. To address these challenges, we pro-pose Readability-guided Idiom-aware Sentence Simplification (RISS), a novel frameworkthat combines data augmentation techniques. RISS introduces two key components: (1)Readability-guided Paraphrase Selection (RPS), a method for mining high-quality sen-tence pairs, and (2) Idiom-aware Simplification (IAS), a model that enhances the compre-hension and simplification of idiomatic expressions. By integrating RPS and IAS usingmulti-stage and multi-task learning strategies, RISS outperforms previous state-of-the-artmethods on two Chinese sentence simplification datasets. Furthermore, RISS achievesadditional improvements when fine-tuned on a small labeled dataset. Our approachdemonstrates the potential for more effective and accessible Chinese text simplification.”

2022

“本文以2019-2021年《人民日报》文章中单项形容词定语77845个词例为研究对象,从实用性的角度考察了粘合式与组合式定语词例的分布特征、音节组配模式及“的”字的隐现倾向性。通过研究我们发现,粘合式定语的词例数量明显少于组合式定语词例数量,但使用频数却高出组合式定语的4-5倍。两种定语结构中,形容词和名词重复使用的比例很高,但其共现组合的比例偏少,同时,真实文本中“的”字的隐现具有“两极分化”的特征,绝大部分词例在使用过程中带“的”或不带“的”都具有很强的倾向性,“的”字出现具有区分词义和突显信息的作用,“的”字隐藏能促使语义更加凝练,进一步固化句式结构,使得某些句式形成了特指或隐喻的表达方式。本文为形容词定语结构的词汇语义研究提供依据和参考。”
“通过自建人文和社科领域中文学术期刊论文语料库(逾920万字),运用多维度分析法对111项语言特征的频次数据进行因子分析和维度识别,发现人文社科领域学术论文具有7个维度的语言特征共现模式:描述性vs.阐释性、概念判断vs.行为再现、铺陈与发展、已然性表述、计数与测量、模糊性表达、顺序与连接。进而,对语料在上述各维度的量化表现施以统计检验和聚类分析,发现学术语体在人文与社科两大领域的语言变异显著体现于除“计数与测量”、“顺序与连接”以外的其他5个维度;人文领域和社科领域内部学科的语言变异,各在6个维度上存在显著差异。本研究为学术汉语写作、汉语语体语法等提供一定启示。”
“数形量名”构式是我们日常语言交流中大量使用的结构。本文在北京语言大学BCC在线语料库5710条语料的基础上考察“一形量名”结构,寻求影响构式成立与否的的关键性因素。本文研究了语义限制下进入构式形容词的语义特点、“物理抽象度”对构式名词成分的限制以及量词在构式形成过程中的作用。研究表明,具备高拆分计量性等语义特征的形容词更易进入此构式,进入构式形容词中90%以上项目都可由单一变化物理量进行衡量,此部分形容词在同一意义层面上与构式内的量词互相和谐;“一形量名”构式对“物理抽象度([+易量化、+低有机活性、+形状易概括])”赋值低的名词包容性更高;此外,本文还发现集合量词的出现可降低整体构式的物理抽象度,从而增强“一形量名”构式成立可能性。”
“儿童心理词汇研究是儿童词汇研究中的重要部分。本文基于心理词表假设,对827位712岁汉语母语儿童展开调查,收集其脑内潜藏的心理词汇,并采用基础词汇定序模型,提取儿童心理词汇定序词表。通过分析词表发现,儿童词汇主要涵盖生活类词汇和以学习为核心的词汇。同时,儿童词汇输出存在思维链的现象,在输出思维链时儿童主要采用了场景策略、范畴策略以及组词策略。此外,通过探究儿童词汇输出影响因素,我们发现儿童输出的词汇量随年龄增长而不断增加,儿童词汇发展从低年龄组到高年龄组发生了显著变化,性别在儿童输出词数上无显著差异,但男孩、女孩关注的词汇类别有各自的倾向。”

2020

新冠肺炎的蔓延使得线上移动教学成为教育发展的必然趋势,本文以适合汉语教材自动推送的口语素材为研究对象,基于10341条生活类口语语料,对词汇的整体特点进行计量分析,在此基础上使用词向量模型及Kmeans算法对全部词语进行聚类,参考词语聚类结果及对口语语料话题和场景的考察,构建了一个包含15个一级话题、102个二级话题及81个交际场景的汉语口语话题-场景素材库。同时对各级话题常用词进行了总结。本文可为教材自动定制的素材库提供资源支持。

2012

2005