@inproceedings{dai-etal-2022-enabling,
    title = "Enabling Multimodal Generation on {CLIP} via Vision-Language Knowledge Distillation",
    author = "Dai, Wenliang  and
      Hou, Lu  and
      Shang, Lifeng  and
      Jiang, Xin  and
      Liu, Qun  and
      Fung, Pascale",
    editor = "Muresan, Smaranda  and
      Nakov, Preslav  and
      Villavicencio, Aline",
    booktitle = "Findings of the Association for Computational Linguistics: ACL 2022",
    month = may,
    year = "2022",
    address = "Dublin, Ireland",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2022.findings-acl.187/",
    doi = "10.18653/v1/2022.findings-acl.187",
    pages = "2383--2395"
}