ZIPA: A family of efficient models for multilingual phone recognition

Jian Zhu; Farhan Samir; Eleanor Chodroff; David R. Mortensen

doi:10.18653/v1/2025.acl-long.961

ZIPA: A family of efficient models for multilingual phone recognition

Jian Zhu, Farhan Samir, Eleanor Chodroff, David R. Mortensen

Abstract

We present ZIPA, a family of efficient speech models that advances the state-of-the-art performance of crosslinguistic phone recognition. We first curated IPA PACK++, a large-scale multilingual speech corpus with 17,000+ hours of normalized phone transcriptions and a novel evaluation set capturing unseen languages and sociophonetic variation. ZIPA, including transducer (ZIPA-T) and CTC-based (ZIPA-CR) variants, leverages the efficient Zipformer backbones and outperforms existing phone recognition systems with much fewer parameters. Further scaling via noisy student training on 11,000+ hours of pseudo-labeled multilingual data yields further improvement. While ZIPA achieves strong performance on benchmarks, error analysis reveals persistent limitations in modeling sociophonetic diversity, underscoring challenges for future research.

Anthology ID:: 2025.acl-long.961
Volume:: Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)
Month:: July
Year:: 2025
Address:: Vienna, Austria
Editors:: Wanxiang Che, Joyce Nabende, Ekaterina Shutova, Mohammad Taher Pilehvar
Venue:: ACL
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 19568–19585
Language:
URL:: https://aclanthology.org/2025.acl-long.961/
DOI:: 10.18653/v1/2025.acl-long.961
Bibkey:
Cite (ACL):: Jian Zhu, Farhan Samir, Eleanor Chodroff, and David R. Mortensen. 2025. ZIPA: A family of efficient models for multilingual phone recognition. In Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 19568–19585, Vienna, Austria. Association for Computational Linguistics.
Cite (Informal):: ZIPA: A family of efficient models for multilingual phone recognition (Zhu et al., ACL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.acl-long.961.pdf

PDF Cite Search Fix data