BIPA: Brazilian Portuguese Phonetic Dataset with Dialectal Variations in IPA Standard

Thiago Monteles de Sousa; Lucas Rafael Gris; Nádia Félix Felipe Da Silva

BIPA: Brazilian Portuguese Phonetic Dataset with Dialectal Variations in IPA Standard

Thiago Monteles de Sousa, Lucas Rafael Gris, Nádia Félix Felipe da Silva

Abstract

This work presents BIPA, a phonetic transcription corpus for Brazilian Portuguese that covers regional dialectal variations. The corpus was constructed through automated extraction from Wiktionary, resulting in 53,353 unique words and 350,021 transcriptions in IPA format, distributed across six dialects: general Brazilian, Rio de Janeiro, São Paulo, South Region, Northeast Region, and Center-West Region. The average density of 6.56 transcriptions per word reflects multiple regionally conditioned phonetic variations. To validate the utility of the corpus, the ByT5-small model was fine-tuned for grapheme-to-phoneme conversion, achieving a Minimum Phoneme Error Rate of 2.66% on the validation set. BIPA addresses the scarcity of computational linguistic resources for Brazilian Portuguese, enabling applications in regional speech synthesis, automatic accent recognition, and computational sociolinguistic analysis.

Anthology ID:: 2026.propor-1.47
Volume:: Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
Month:: April
Year:: 2026
Address:: Salvador, Brazil
Editors:: Marlo Souza, Iria de-Dios-Flores, Diana Santos, Larissa Freitas, Jackson Wilke da Cruz Souza, Eugénio Ribeiro
Venue:: PROPOR
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 478–487
Language:
URL:: https://aclanthology.org/2026.propor-1.47/
DOI:
Bibkey:
Cite (ACL):: Thiago Monteles de Sousa, Lucas Rafael Gris, and Nádia Félix Felipe da Silva. 2026. BIPA: Brazilian Portuguese Phonetic Dataset with Dialectal Variations in IPA Standard. In Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1, pages 478–487, Salvador, Brazil. Association for Computational Linguistics.
Cite (Informal):: BIPA: Brazilian Portuguese Phonetic Dataset with Dialectal Variations in IPA Standard (Sousa et al., PROPOR 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.propor-1.47.pdf

PDF Cite Search Fix data