李罗希 李罗希
2025
控制句长的句子可读性研究:大语言模型驱动的数据集构建与评估
李罗希 李罗希 | Wei Li | Yanqiu Shao
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
李罗希 李罗希 | Wei Li | Yanqiu Shao
Proceedings of the 24th China National Conference on Computational Linguistics (CCL 2025)
"文本可读性评估研究旨在衡量文本对特定读者的理解难度,可以分为文档级和句子级。句长这一因素在句子级的难度分类中起主导作用,现有的句子级研究普遍未能控制该变量,从而掩盖了其他深层语言因素在句子难度中的作用。鉴于此,本文提出构建句长受控的句子难度分级语料库。然而,传统人工标注在构建该数据集上存在效率低、质量难以保证的问题。为解决这个问题,本文提出一种大语言模型驱动的智能受控改写方法,利用生成式人工智能从开放语料中自动筛选内容生成候选句,再通过专家审核来保证质量,最终构建了包含二分类三分类的控制句长句子难度分级语料库。在此数据集上的实验结果显示,传统特征分类模型的准确率在控制句长后显著下降,揭示了传统方法的局限性。大语言模型仍具有高准确率,表明其具备识别句长无关语义难度的能力。"