Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training

Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training Haowei Liu author Yaya Shi author Haiyang Xu author Chunfeng Yuan author Qinghao Ye author Chenliang Li author Ming Yan author Ji Zhang author Fei Huang author Bing Li author Weiming Hu author 2024-05 text Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) Nicoletta Calzolari editor Min-Yen Kan editor Veronique Hoste editor Alessandro Lenci editor Sakriani Sakti editor Nianwen Xue editor ELRA and ICCL Torino, Italia conference publication liu-etal-2024-semantics https://aclanthology.org/2024.lrec-main.1277/ 2024-05 14664 14675