Semantic Aligned Multi-modal Transformer for Vision-LanguageUnderstanding: A Preliminary Study on Visual QA

Semantic Aligned Multi-modal Transformer for Vision-LanguageUnderstanding: A Preliminary Study on Visual QA Han Ding author Li Erran Li author Zhiting Hu author Yi Xu author Dilek Hakkani-Tur author Zheng Du author Belinda Zeng author 2021-06 text Proceedings of the Third Workshop on Multimodal Artificial Intelligence Amir Zadeh editor Louis-Philippe Morency editor Paul Pu Liang editor Candace Ross editor Ruslan Salakhutdinov editor Soujanya Poria editor Erik Cambria editor Kelly Shi editor Association for Computational Linguistics Mexico City, Mexico conference publication ding-etal-2021-semantic 10.18653/v1/2021.maiworkshop-1.11 https://aclanthology.org/2021.maiworkshop-1.11/ 2021-06 74 78