SLPGFJWUWarda at SemEval-2026 Task 1: A Multimodal Vision-Language Approach for Humor Generation Using Fine-Tuned BLIP

Warda Yousaf

SLPGFJWUWarda at SemEval-2026 Task 1: A Multimodal Vision-Language Approach for Humor Generation Using Fine-Tuned BLIP

Abstract

We present a BLIP-based multimodal system for image-based humor generation submitted to SemEval-2026 Task 1 (MWAHAHA), focusing on Task B1. Our approach fine-tunes a vision–language model on meme-style captions and handles animated GIFs via representative frame extraction to generate culturally grounded humorous captions.

Anthology ID:: 2026.semeval-1.156
Volume:: Proceedings of the 20th International Workshop on Semantic Evaluation (2026)
Month:: July
Year:: 2026
Address:: San Diego, California, USA
Editors:: Ekaterina Kochmar, Debanjan Ghosh, Kai North, Mamoru Komachi
Venues:: SemEval | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 1144–1146
Language:
URL:: https://aclanthology.org/2026.semeval-1.156/
DOI:
Bibkey:
Cite (ACL):: Warda Yousaf. 2026. SLPGFJWUWarda at SemEval-2026 Task 1: A Multimodal Vision-Language Approach for Humor Generation Using Fine-Tuned BLIP. In Proceedings of the 20th International Workshop on Semantic Evaluation (2026), pages 1144–1146, San Diego, California, USA. Association for Computational Linguistics.
Cite (Informal):: SLPGFJWUWarda at SemEval-2026 Task 1: A Multimodal Vision-Language Approach for Humor Generation Using Fine-Tuned BLIP (Yousaf, SemEval 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.semeval-1.156.pdf
Supplementarymaterial:: 2026.semeval-1.156.SupplementaryMaterial.zip

PDF Cite Search Supplementarymaterial Fix data