Re-Evaluating Evaluation for Multilingual Summarization

Jessica Zosa Forde; Ruochen Zhang; Lintang Sutawika*; Alham Fikri Aji; Samuel Cahyawijaya; Genta Indra Winata; Minghao Wu; Carsten Eickhoff; Stella Biderman; Ellie Pavlick

doi:10.18653/v1/2024.emnlp-main.1085

Re-Evaluating Evaluation for Multilingual Summarization

Jessica Zosa Forde, Ruochen Zhang, Lintang Sutawika, Alham Fikri Aji, Samuel Cahyawijaya, Genta Indra Winata, Minghao Wu, Carsten Eickhoff, Stella Biderman, Ellie Pavlick

Abstract

Automatic evaluation approaches (ROUGE, BERTScore, LLM-based evaluators) have been widely used to evaluate summarization tasks. Despite the complexities of script differences and tokenization, these approaches have been indiscriminately applied to summarization across multiple languages. While previous works have argued that these approaches correlate strongly with human ratings in English, it remains unclear whether the conclusion holds for other languages. To answer this question, we construct a small-scale pilot dataset containing article-summary pairs and human ratings in English, Chinese and Indonesian. To measure the strength of summaries, our ratings are measured as head-to-head comparisons with resulting Elo scores across four dimensions. Our analysis reveals that standard metrics are unreliable measures of quality, and that these problems are exacerbated in Chinese and Indonesian. We advocate for more nuanced and careful considerations in designing a robust evaluation framework for multiple languages.

Anthology ID:: 2024.emnlp-main.1085
Volume:: Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing
Month:: November
Year:: 2024
Address:: Miami, Florida, USA
Editors:: Yaser Al-Onaizan, Mohit Bansal, Yun-Nung Chen
Venue:: EMNLP
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 19476–19493
Language:
URL:: https://aclanthology.org/2024.emnlp-main.1085/
DOI:: 10.18653/v1/2024.emnlp-main.1085
Bibkey:
Cite (ACL):: Jessica Zosa Forde, Ruochen Zhang, Lintang Sutawika, Alham Fikri Aji, Samuel Cahyawijaya, Genta Indra Winata, Minghao Wu, Carsten Eickhoff, Stella Biderman, and Ellie Pavlick. 2024. Re-Evaluating Evaluation for Multilingual Summarization. In Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing, pages 19476–19493, Miami, Florida, USA. Association for Computational Linguistics.
Cite (Informal):: Re-Evaluating Evaluation for Multilingual Summarization (Forde et al., EMNLP 2024)
Copy Citation:
PDF:: https://aclanthology.org/2024.emnlp-main.1085.pdf

PDF Cite Search Fix data