Cross-Modal Projection in Multimodal LLMs Doesn’t Really Project Visual Attributes to Textual Space

Cross-Modal Projection in Multimodal LLMs Doesn’t Really Project Visual Attributes to Textual Space Gaurav Verma author Minje Choi author Kartik Sharma author Jamelle Watson-Daniels author Sejoon Oh author Srijan Kumar author 2024-08 text Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers) Lun-Wei Ku editor Andre Martins editor Vivek Srikumar editor Association for Computational Linguistics Bangkok, Thailand conference publication verma-etal-2024-cross 10.18653/v1/2024.acl-short.60 https://aclanthology.org/2024.acl-short.60/ 2024-08 657 664