Xiying Zhao


2025

"大语言模型在高效生成文本的同时也带来了文本滥用的问题,如何有效地区分不同大模型生成的文本成为了关键的挑战。为了解决这个问题,本文首先构建了一个面向多分类的大模型生成文本检测任务的数据集LGT-AA,包含7个领域的人类和10个常用大模型生成的94k条文本;其次,本文提出了一种提取不同大模型生成文本的全局性区分性特征的方案,并与分布特征进行融合构建文本检测器,提升了对生成文本的检测能力。实验结果表明,本文提出的方法在不同模型组合下和不同生成模型类别下都取得了更优的性能。"