Perplexity as a Metric for Dialectal Distance: A Computational Study of Greek Varieties

Stergios Chatzikyriakidis; Erofili Psaltaki; Dimitrios Papadakis; Erik Henriksson; Veronika Laippala

Perplexity as a Metric for Dialectal Distance: A Computational Study of Greek Varieties

Stergios Chatzikyriakidis, Erofili Psaltaki, Dimitrios Papadakis, Erik Henriksson, Veronika Laippala

Abstract

In this paper, we use LLM perplexity as a measure to assess Greek dialectal distance. We test seven models on Standard Modern Greek (SMG) and eight dialects, namely Heptanesian, Cypriot, Maniot, Pontic, Northern, Cretan, Tsakonian, and Griko. Using samples of 5k, 15k, and 25k tokens from the GRDD+ corpus for each variety, we find a consistent dialect ranking across models, with Heptanesian closest to SMG, and Griko most distant (perplexity ratio 3.6–14.5× depending on model). These results are largely in agreement with theoretical dialectological knowledge. For example, Tsakonian consistently appears distant in all measures, reflecting its status as the sole Doric descendant, while Heptanesian appears closer by all metrics, pointing to its status as one of the dialects used to shape the official variety. Perplexity correlates strongly with Bits Per-Character (mean r = 0.94) and Normalized Compression Distance (mean r = 0.87, range 0.76–0.93), providing support for its use as a dialectometric tool. However, a number of important confounds are also found. First, tokenization effects compress Llama 2’s perplexity range. Second, genre artifacts seem to inflate the results for Cretan. Third, potential training data contamination likely reduces perplexity for Cypriot and Pontic. Lastly, we find that Greek-specific models like Meltemi and Krikri do not consistently outperform general models.

Anthology ID:: 2026.vardial-1.8
Volume:: Proceedings of the 13th Workshop on NLP for Similar Languages, Varieties and Dialects
Month:: March
Year:: 2026
Address:: Rabat, Morocco
Venues:: VarDial | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 101–112
Language:
URL:: https://aclanthology.org/2026.vardial-1.8/
DOI:
Bibkey:
Cite (ACL):: Stergios Chatzikyriakidis, Erofili Psaltaki, Dimitrios Papadakis, Erik Henriksson, and Veronika Laippala. 2026. Perplexity as a Metric for Dialectal Distance: A Computational Study of Greek Varieties. In Proceedings of the 13th Workshop on NLP for Similar Languages, Varieties and Dialects, pages 101–112, Rabat, Morocco. Association for Computational Linguistics.
Cite (Informal):: Perplexity as a Metric for Dialectal Distance: A Computational Study of Greek Varieties (Chatzikyriakidis et al., VarDial 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.vardial-1.8.pdf

PDF Cite Search Fix data