大语言模型故事理解能力评价数据集(Benchmarking story comprehension ability of large language model)

Yan Guohang (闫国航), Guo Yaxin (郭亚鑫), Tan Hongye (谭红叶), Zhang Hu (张虎)


Abstract
“故事包含大量的社会、物理等常识,同时蕴含深刻的道理,是知识传播、文化传承、价值塑造的重要载体。故事理解是NLP中的一项重要任务。近几年,研究者对大语言模型(LLMs)的语言理解能力进行了很多评估与分析,但由于现有的故事理解数据集大多为答案出现在原文的实体类问题,因此对LLMs故事理解能力的评价与分析非常有限。为此,本文构建了一个寓言故事理解数据集CRMUS,并基于人类故事理解的认知过程:先进行常识推理,然后理解故事寓意,设计了两个任务来评价模型的相应能力。基于CSMUS数据集,我们对多个代表性的LLMs进行了评估,发现:LLMs已经可以较好地理解故事中的常识并进行推理,但在理解故事寓意方面还存在很大提升空间。此外,我们使用项目反应理论(IRT)对数据集进行了质量分析,表明该数据集是高质量的,可以有效地评估LLMs。”
Anthology ID:
2024.ccl-1.60
Volume:
Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference)
Month:
July
Year:
2024
Address:
Taiyuan, China
Editors:
Maosong Sun, Jiye Liang, Xianpei Han, Zhiyuan Liu, Yulan He
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
760–773
Language:
Chinese
URL:
https://aclanthology.org/2024.ccl-1.60/
DOI:
Bibkey:
Cite (ACL):
Yan Guohang, Guo Yaxin, Tan Hongye, and Zhang Hu. 2024. 大语言模型故事理解能力评价数据集(Benchmarking story comprehension ability of large language model). In Proceedings of the 23rd Chinese National Conference on Computational Linguistics (Volume 1: Main Conference), pages 760–773, Taiyuan, China. Chinese Information Processing Society of China.
Cite (Informal):
大语言模型故事理解能力评价数据集(Benchmarking story comprehension ability of large language model) (Guohang et al., CCL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.ccl-1.60.pdf