Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model

Multimodal Self-Instruct: Synthetic Abstract Image and Visual Reasoning Instruction Using Language Model Wenqi Zhang author Zhenglin Cheng author Yuanyu He author Mengna Wang author Yongliang Shen author Zeqi Tan author Guiyang Hou author Mingqian He author Yanna Ma author Weiming Lu author Yueting Zhuang author 2024-11 text Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing Yaser Al-Onaizan editor Mohit Bansal editor Yun-Nung Chen editor Association for Computational Linguistics Miami, Florida, USA conference publication zhang-etal-2024-multimodal 10.18653/v1/2024.emnlp-main.1072 https://aclanthology.org/2024.emnlp-main.1072/ 2024-11 19228 19252