dialect2vec: Um método baseado em vetores para transcrição dialetal do português a partir de questionários do ALiB

Laila Mota, Daniela Barreiro Claro, Eloize R. Marques Seno, Rerisson Cavalcante de Araújo


Abstract
A modelagem da variação dialetal enfrenta desafios quando dependente de modelos de linguagem baseados em sub-palavras, que frequentemente falham ao processar a complexidade de transcrições fonéticas devido a restrições de vocabulário e vieses semânticos. Este trabalho introduz o dialect2vec, um método para capturar a diversidade dialetal do Português Brasileiro. Nossa proposta adota o modelo token-free ByT5 para codificar sequências do Alfabeto Fonético Internacional (IPA) ao nível de byte, mitigando a perda de informação causada por tokens desconhecidos. Os experimentos foram realizados com dados do Atlas Linguístico do Brasil (ALiB), em que a dimensão fonética isolada demonstrou viabilidade em tarefas de agrupamento não supervisionado, com desempenho próximo do estado da arte léxico (BERTimbau), comprovando que arquiteturas baseadas em bytes podem recuperar estruturas dialetais complexas exclusivamente através de pistas fonológicas, oferecendo um mapeamento mais granular das fronteiras linguísticas.
Anthology ID:
2026.propor-1.79
Volume:
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
Month:
April
Year:
2026
Address:
Salvador, Brazil
Editors:
Marlo Souza, Iria de-Dios-Flores, Diana Santos, Larissa Freitas, Jackson Wilke da Cruz Souza, Eugénio Ribeiro
Venue:
PROPOR
SIG:
Publisher:
Association for Computational Linguistics
Note:
Pages:
800–807
Language:
URL:
https://aclanthology.org/2026.propor-1.79/
DOI:
Bibkey:
Cite (ACL):
Laila Mota, Daniela Barreiro Claro, Eloize R. Marques Seno, and Rerisson Cavalcante de Araújo. 2026. dialect2vec: Um método baseado em vetores para transcrição dialetal do português a partir de questionários do ALiB. In Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1, pages 800–807, Salvador, Brazil. Association for Computational Linguistics.
Cite (Informal):
dialect2vec: Um método baseado em vetores para transcrição dialetal do português a partir de questionários do ALiB (Mota et al., PROPOR 2026)
Copy Citation:
PDF:
https://aclanthology.org/2026.propor-1.79.pdf