Lingrui Dai


2025

"讽刺和隐喻是文学与语言表达中常见的修辞手法,以往相关研究多聚焦于分类任务上,且更多的基于英文数据进行探索。随着大模型与多模态大模型的不断涌现,模型对各种自然语言处理任务与多模态任务的处理能力得到了显著的提高。本文利用GPT-4o进行自动数据合成,来训练多模态大模型,实现了图文多模态讽刺隐喻综合理解任务。本文训练出能理解图片或图文讽刺隐喻内容,并进行详细解释或配文的参数量较小的多模态大模型,并且保证了模型具备良好的鲁棒性和通用性能。本文精心设计了数据构造方法,包括数据源的选择,指令数据的合成,回复数据的合成,来获得了一批高质量的多模态讽刺隐喻指令微调数据。我们选用了当前表现较好的多模态大模型作为骨干模型,使用合成数据并结合公开多模态图文数据集进行训练。在模型评测方面,本文分别从讽刺隐喻理解能力和通用能力进行评测,验证了模型的可用性。本文的数据以及模型权重将在后续放置在https://github.com/652897698/Multimodal-LLMs-for-Sarcasm-and-Metaphor-Undrerstanding"