@inproceedings{mota-etal-2026-dialect2vec,
title = "dialect2vec: Um m{\'e}todo baseado em vetores para transcri{\c{c}}{\~a}o dialetal do portugu{\^e}s a partir de question{\'a}rios do {AL}i{B}",
author = "Mota, Laila and
Claro, Daniela Barreiro and
Seno, Eloize R. Marques and
Ara{\'u}jo, Rerisson Cavalcante de",
editor = "Souza, Marlo and
de-Dios-Flores, Iria and
Santos, Diana and
Freitas, Larissa and
Souza, Jackson Wilke da Cruz and
Ribeiro, Eug{\'e}nio",
booktitle = "Proceedings of the 17th International Conference on Computational Processing of {P}ortuguese ({PROPOR} 2026) - Vol. 1",
month = apr,
year = "2026",
address = "Salvador, Brazil",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2026.propor-1.79/",
pages = "800--807",
ISBN = "979-8-89176-387-6",
abstract = "A modelagem da varia{\c{c}}{\~a}o dialetal enfrenta desafios quando dependente de modelos de linguagem baseados em sub-palavras, que frequentemente falham ao processar a complexidade de transcri{\c{c}}{\~o}es fon{\'e}ticas devido a restri{\c{c}}{\~o}es de vocabul{\'a}rio e vieses sem{\^a}nticos. Este trabalho introduz o dialect2vec, um m{\'e}todo para capturar a diversidade dialetal do Portugu{\^e}s Brasileiro. Nossa proposta adota o modelo token-free ByT5 para codificar sequ{\^e}ncias do Alfabeto Fon{\'e}tico Internacional (IPA) ao n{\'i}vel de byte, mitigando a perda de informa{\c{c}}{\~a}o causada por tokens desconhecidos. Os experimentos foram realizados com dados do Atlas Lingu{\'i}stico do Brasil (ALiB), em que a dimens{\~a}o fon{\'e}tica isolada demonstrou viabilidade em tarefas de agrupamento n{\~a}o supervisionado, com desempenho pr{\'o}ximo do estado da arte l{\'e}xico (BERTimbau), comprovando que arquiteturas baseadas em bytes podem recuperar estruturas dialetais complexas exclusivamente atrav{\'e}s de pistas fonol{\'o}gicas, oferecendo um mapeamento mais granular das fronteiras lingu{\'i}sticas."
}<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="mota-etal-2026-dialect2vec">
<titleInfo>
<title>dialect2vec: Um método baseado em vetores para transcrição dialetal do português a partir de questionários do ALiB</title>
</titleInfo>
<name type="personal">
<namePart type="given">Laila</namePart>
<namePart type="family">Mota</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Daniela</namePart>
<namePart type="given">Barreiro</namePart>
<namePart type="family">Claro</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eloize</namePart>
<namePart type="given">R</namePart>
<namePart type="given">Marques</namePart>
<namePart type="family">Seno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Rerisson</namePart>
<namePart type="given">Cavalcante</namePart>
<namePart type="given">de</namePart>
<namePart type="family">Araújo</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2026-04</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<relatedItem type="host">
<titleInfo>
<title>Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1</title>
</titleInfo>
<name type="personal">
<namePart type="given">Marlo</namePart>
<namePart type="family">Souza</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Iria</namePart>
<namePart type="family">de-Dios-Flores</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Santos</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Larissa</namePart>
<namePart type="family">Freitas</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jackson</namePart>
<namePart type="given">Wilke</namePart>
<namePart type="given">da</namePart>
<namePart type="given">Cruz</namePart>
<namePart type="family">Souza</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eugénio</namePart>
<namePart type="family">Ribeiro</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>Association for Computational Linguistics</publisher>
<place>
<placeTerm type="text">Salvador, Brazil</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
<identifier type="isbn">979-8-89176-387-6</identifier>
</relatedItem>
<abstract>A modelagem da variação dialetal enfrenta desafios quando dependente de modelos de linguagem baseados em sub-palavras, que frequentemente falham ao processar a complexidade de transcrições fonéticas devido a restrições de vocabulário e vieses semânticos. Este trabalho introduz o dialect2vec, um método para capturar a diversidade dialetal do Português Brasileiro. Nossa proposta adota o modelo token-free ByT5 para codificar sequências do Alfabeto Fonético Internacional (IPA) ao nível de byte, mitigando a perda de informação causada por tokens desconhecidos. Os experimentos foram realizados com dados do Atlas Linguístico do Brasil (ALiB), em que a dimensão fonética isolada demonstrou viabilidade em tarefas de agrupamento não supervisionado, com desempenho próximo do estado da arte léxico (BERTimbau), comprovando que arquiteturas baseadas em bytes podem recuperar estruturas dialetais complexas exclusivamente através de pistas fonológicas, oferecendo um mapeamento mais granular das fronteiras linguísticas.</abstract>
<identifier type="citekey">mota-etal-2026-dialect2vec</identifier>
<location>
<url>https://aclanthology.org/2026.propor-1.79/</url>
</location>
<part>
<date>2026-04</date>
<extent unit="page">
<start>800</start>
<end>807</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T dialect2vec: Um método baseado em vetores para transcrição dialetal do português a partir de questionários do ALiB
%A Mota, Laila
%A Claro, Daniela Barreiro
%A Seno, Eloize R. Marques
%A Araújo, Rerisson Cavalcante de
%Y Souza, Marlo
%Y de-Dios-Flores, Iria
%Y Santos, Diana
%Y Freitas, Larissa
%Y Souza, Jackson Wilke da Cruz
%Y Ribeiro, Eugénio
%S Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
%D 2026
%8 April
%I Association for Computational Linguistics
%C Salvador, Brazil
%@ 979-8-89176-387-6
%F mota-etal-2026-dialect2vec
%X A modelagem da variação dialetal enfrenta desafios quando dependente de modelos de linguagem baseados em sub-palavras, que frequentemente falham ao processar a complexidade de transcrições fonéticas devido a restrições de vocabulário e vieses semânticos. Este trabalho introduz o dialect2vec, um método para capturar a diversidade dialetal do Português Brasileiro. Nossa proposta adota o modelo token-free ByT5 para codificar sequências do Alfabeto Fonético Internacional (IPA) ao nível de byte, mitigando a perda de informação causada por tokens desconhecidos. Os experimentos foram realizados com dados do Atlas Linguístico do Brasil (ALiB), em que a dimensão fonética isolada demonstrou viabilidade em tarefas de agrupamento não supervisionado, com desempenho próximo do estado da arte léxico (BERTimbau), comprovando que arquiteturas baseadas em bytes podem recuperar estruturas dialetais complexas exclusivamente através de pistas fonológicas, oferecendo um mapeamento mais granular das fronteiras linguísticas.
%U https://aclanthology.org/2026.propor-1.79/
%P 800-807
Markdown (Informal)
[dialect2vec: Um método baseado em vetores para transcrição dialetal do português a partir de questionários do ALiB](https://aclanthology.org/2026.propor-1.79/) (Mota et al., PROPOR 2026)
ACL