Luming Lu

Also published as: 鹿鸣


2025

"本研究针对大语言模型(LLMs)生成例句的教学适用性问题,基于二语习得认知理论构建了多维例句质量评估体系,涵盖规范性、语境独立性、典型度、词汇适切性及句法复杂度五大核心维度。通过采集汉语词典与教材的优质例句作为基准语料,结合特征工程构建了机器学习模型(准确率为98.6%),验证了评估框架的有效性。在此基础上,本研究利用该评估框架对LLMs生成例句与传统人工编纂词典中的例句进行了系统对比分析。研究结果表明:LLMs在语法典型度、词汇难度、汉字笔画数方面展现出与传统词典例句相当的质量水平,而在语境独立性、语义典型度、词汇常用度方面仍存在一定不足。进一步研究发现,不同提示策略影响例句生成质量,其中融合语言特征约束型提示策略优化效果最佳。本研究首次实现LLMs生成例句教育适应性的量化评估,为智能语言教辅系统开发提供了兼具理论指导意义与实践应用价值的评估范式。"
"CCL25-Eval任务6提出了一个段落级、多层次,细粒度中小学修辞识别与理解任务。针对修辞分类任务的特点,本文构建了一种以数据增强为核心、结合高效监督微调的多策略融合框架,并融合语句层面修辞识别与段落句间关系建模及识别,以全面提升模型的修辞理解能力。针对修辞成分抽取任务的特点,本文采用先进行修辞类别判定,后在该基础上进行修辞相关实体识别的两阶段处理策略,有效提升了整体识别精度。结果表明,本文所提出的方法能够有效对修辞进行识别和抽取,三个赛道上的分数分别达到了43.47、51.71、38.27,总成绩位列第二。"

2024

Text simplification aims to make the text easier to understand by applying rewriting transformations. There has been very little research on Chinese text simplification for a long time. The lack of generic evaluation data is an essential reason for this phenomenon. In this paper, we introduce MCTS, a multi-reference Chinese text simplification dataset. We describe the annotation process of the dataset and provide a detailed analysis. Furthermore, we evaluate the performance of several unsupervised methods and advanced large language models. We additionally provide Chinese text simplification parallel data that can be used for training, acquired by utilizing machine translation and English text simplification. We hope to build a basic understanding of Chinese text simplification through the foundational work and provide references for future research. All of the code and data are released at https://github.com/blcuicall/mcts/.
“语料库检索工具在语言学研究领域具有举足轻重的地位,对于高效获取信息至关重要。然而,当前国内语料库检索工具在语料库检索语言上缺乏统一标准,尤其支持语料库查询语言(CQL)的中文语料库检索工具相对稀缺。在使用不同分词粒度的语料库工具进行中文语料库检索时,会遇到噪声或数据召回难问题。为应对这些挑战,我们研发了支持多粒度分词的CQL 解析器系统CAMELS:一款支持CQL 语句检索,且兼容多粒度分词,支持非词典词检索的语料库检索引擎。经过多种分词器的测试,该引擎展现出了优异的召回率,并在性能上超越了BlackLab的检索速度,为语言学工作者提供了更加易用、精准的检索工具。”