TokCollate: A Comprehensive Tool for Tokenizer Evaluation and Visualization across Languages

Dusan Varis; Abishek Stephen; Jindřich Libovický

TokCollate: A Comprehensive Tool for Tokenizer Evaluation and Visualization across Languages

Dušan Variš, Abishek Stephen, Jindřich Libovický

Abstract

Tokenization quality varies significantly across languages, contributing to disparities in LLM performance and cost for speakers of less-resourced languages – a phenomenon known as the "token premium" problem. Despite growing research interest, no existing tool provides a comprehensive intrinsic evaluation of tokenizers paired with interactive visualization. We present TokCollate (pronounced similarly to chocolate), a Python-based evaluation framework combined with a JavaScript visualization interface that addresses this gap. TokCollate implements a wide range of intrinsic metrics, including monolingual measures such as average token length and Rényi/Shannon efficiency, and cross-lingual measures such as vocabulary overlap, Jensen-Shannon divergence, alignment-based Eflomal scores, and length ratios. It further enables analysis across language groups defined by genealogical families, scripts, geographic regions, speaker populations, and estimated data availability. TokCollate is open-source under the MIT license and available on GitHub.

Anthology ID:: 2026.acl-demo.41
Volume:: Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations)
Month:: July
Year:: 2026
Address:: San Diego, California, United States
Editors:: Greg Durrett, Ping Jian
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 418–427
Language:
URL:: https://aclanthology.org/2026.acl-demo.41/
DOI:
Bibkey:
Cite (ACL):: Dušan Variš, Abishek Stephen, and Jindřich Libovický. 2026. TokCollate: A Comprehensive Tool for Tokenizer Evaluation and Visualization across Languages. In Proceedings of the 64th Annual Meeting of the Association for Computational Linguistics (Volume 3: System Demonstrations), pages 418–427, San Diego, California, United States. Association for Computational Linguistics.
Cite (Informal):: TokCollate: A Comprehensive Tool for Tokenizer Evaluation and Visualization across Languages (Variš et al., ACL 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.acl-demo.41.pdf

PDF Cite Search Fix data