OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for Video-Grounded Dialog

OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for Video-Grounded Dialog Adnen Abdessaied author Manuel Hochmeister author Andreas Bulling author 2024-05 text Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) Nicoletta Calzolari editor Min-Yen Kan editor Veronique Hoste editor Alessandro Lenci editor Sakriani Sakti editor Nianwen Xue editor ELRA and ICCL Torino, Italia conference publication abdessaied-etal-2024-olvit https://aclanthology.org/2024.lrec-main.1081/ 2024-05 12348 12358