Spanish Dialect Classification: A Comparative Study of Linguistically Tailored Features, Unigrams and BERT Embeddings

Laura Zeidler; Chris Jenkins; Filip Miletić; Sabine Schulte im Walde

doi:10.18653/v1/2025.acl-srw.36

Spanish Dialect Classification: A Comparative Study of Linguistically Tailored Features, Unigrams and BERT Embeddings

Laura Zeidler, Chris Jenkins, Filip Miletić, Sabine Schulte Im Walde

Abstract

The task of automatic dialect classification is typically tackled using traditional machine-learning models with bag-of-words unigram features. We explore two alternative methods for distinguishing dialects across 20 Spanish-speaking countries:(i) Support vector machine and decision tree models were trained on dialectal features tailored to the Spanish dialects, combined with standard unigrams. (ii) A pre-trained BERT model was fine-tuned on the task.Results show that the tailored features generally did not have a positive impact on traditional model performance, but provide a salient way of representing dialects in a content-agnostic manner. The BERT model wins over traditional models but with only a tiny margin, while sacrificing explainability and interpretability.

Anthology ID:: 2025.acl-srw.36
Volume:: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop)
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Jin Zhao, Mingyang Wang, Zhu Liu
Venues:: ACL | WS
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 539–547
Language:
URL:: https://aclanthology.org/2025.acl-srw.36/
DOI:: 10.18653/v1/2025.acl-srw.36
Bibkey:
Cite (ACL):: Laura Zeidler, Chris Jenkins, Filip Miletić, and Sabine Schulte Im Walde. 2025. Spanish Dialect Classification: A Comparative Study of Linguistically Tailored Features, Unigrams and BERT Embeddings. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop), pages 539–547, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: Spanish Dialect Classification: A Comparative Study of Linguistically Tailored Features, Unigrams and BERT Embeddings (Zeidler et al., ACL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.acl-srw.36.pdf

PDF Cite Search Fix data