Attention Weights in Transformer NMT Fail Aligning Words Between Sequences but Largely Explain Model Predictions

Attention Weights in Transformer NMT Fail Aligning Words Between Sequences but Largely Explain Model Predictions Javier Ferrando author Marta R Costa-jussà author 2021-11 text Findings of the Association for Computational Linguistics: EMNLP 2021 Marie-Francine Moens editor Xuanjing Huang editor Lucia Specia editor Scott Wen-tau Yih editor Association for Computational Linguistics Punta Cana, Dominican Republic conference publication ferrando-costa-jussa-2021-attention-weights 10.18653/v1/2021.findings-emnlp.39 https://aclanthology.org/2021.findings-emnlp.39/ 2021-11 434 443