Fine-tuning vs From Scratch: Do Vision & Language Models Have Similar Capabilities on Out-of-Distribution Visual Question Answering?

Fine-tuning vs From Scratch: Do Vision & Language Models Have Similar Capabilities on Out-of-Distribution Visual Question Answering? Kristian Nørgaard Jensen author Barbara Plank author 2022-06 text Proceedings of the Thirteenth Language Resources and Evaluation Conference Nicoletta Calzolari editor Frédéric Béchet editor Philippe Blache editor Khalid Choukri editor Christopher Cieri editor Thierry Declerck editor Sara Goggi editor Hitoshi Isahara editor Bente Maegaard editor Joseph Mariani editor Hélène Mazo editor Jan Odijk editor Stelios Piperidis editor European Language Resources Association Marseille, France conference publication jensen-plank-2022-fine https://aclanthology.org/2022.lrec-1.161/ 2022-06 1496 1508