Luc De Nardi

2026

When Multilingual Evaluation Assumptions Fail: Tokenization Effects Across Scripts
Manodyna K H | Luc De Nardi
Proceedings of the Second Workshop on Language Models for Low-Resource Languages (LoResLM 2026)

Multilingual evaluation often relies on language coverage or translated benchmarks, implicitly assuming that subword tokenization behaves comparably across scripts. In mixed-script settings, this assumption breaks down. We examine this effect using polarity detection as a case study, comparing Orthographic Syllable Pair Encoding (OSPE) and Byte Pair Encoding (BPE) under identical architectures, data, and training conditions on SemEval Task 9, which spans Devanagari, Perso-Arabic, and Latin scripts. OSPE is applied to Hindi, Nepali, Urdu, and Arabic, while BPE is retained for English. We find that BPE systematically underestimates performance in abugida and abjad scripts, producing fragmented representations, unstable optimization, and drops of up to 27 macro-F1 points for Nepali, while English remains largely unaffected. Script-aware segmentation preserves orthographic structure, stabilizes training, and improves cross-language comparability without additional data or model scaling, highlighting tokenization as a latent but consequential evaluation decision in multilingual benchmarks.

pdf bib abs

Rethinking Polarity Detection: When BPE Fails Across Scripts
Manodyna K H | Luc De Nardi
Proceedings of the 2nd Workshop on NLP for Languages Using Arabic Script

Co-authors

Manodyna K H 2

Venues

Fix author