A Novel Wikipedia based Dataset for Monolingual and Cross-Lingual Summarization

Mehwish Fatima; Michael Strube

doi:10.18653/v1/2021.newsum-1.5

A Novel Wikipedia based Dataset for Monolingual and Cross-Lingual Summarization

Abstract

Cross-lingual summarization is a challenging task for which there are no cross-lingual scientific resources currently available. To overcome the lack of a high-quality resource, we present a new dataset for monolingual and cross-lingual summarization considering the English-German pair. We collect high-quality, real-world cross-lingual data from Spektrum der Wissenschaft, which publishes human-written German scientific summaries of English science articles on various subjects. The generated Spektrum dataset is small; therefore, we harvest a similar dataset from the Wikipedia Science Portal to complement it. The Wikipedia dataset consists of English and German articles, which can be used for monolingual and cross-lingual summarization. Furthermore, we present a quantitative analysis of the datasets and results of empirical experiments with several existing extractive and abstractive summarization models. The results suggest the viability and usefulness of the proposed dataset for monolingual and cross-lingual summarization.

Anthology ID:: 2021.newsum-1.5
Volume:: Proceedings of the Third Workshop on New Frontiers in Summarization
Month:: November
Year:: 2021
Address:: Online and in Dominican Republic
Editors:: Giuseppe Carenini, Jackie Chi Kit Cheung, Yue Dong, Fei Liu, Lu Wang
Venue:: NewSum
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 39–50
Language:
URL:: https://aclanthology.org/2021.newsum-1.5
DOI:: 10.18653/v1/2021.newsum-1.5
Bibkey:
Cite (ACL):: Mehwish Fatima and Michael Strube. 2021. A Novel Wikipedia based Dataset for Monolingual and Cross-Lingual Summarization. In Proceedings of the Third Workshop on New Frontiers in Summarization, pages 39–50, Online and in Dominican Republic. Association for Computational Linguistics.
Cite (Informal):: A Novel Wikipedia based Dataset for Monolingual and Cross-Lingual Summarization (Fatima & Strube, NewSum 2021)
Copy Citation:
PDF:: https://aclanthology.org/2021.newsum-1.5.pdf
Video:: https://aclanthology.org/2021.newsum-1.5.mp4
Code: mehwishfatimah/wsd
Data: WikiLingua

PDF Cite Search Code Video