MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering

MIRTT: Learning Multimodal Interaction Representations from Trilinear Transformers for Visual Question Answering Junjie Wang author Yatai Ji author Jiaqi Sun author Yujiu Yang author Tetsuya Sakai author 2021-11 text Findings of the Association for Computational Linguistics: EMNLP 2021 Marie-Francine Moens editor Xuanjing Huang editor Lucia Specia editor Scott Wen-tau Yih editor Association for Computational Linguistics Punta Cana, Dominican Republic conference publication wang-etal-2021-mirtt-learning 10.18653/v1/2021.findings-emnlp.196 https://aclanthology.org/2021.findings-emnlp.196/ 2021-11 2280 2292