Cartas Indígenas ao Brasil: Classificação Multi-Rótulo

Caio Almeida; Renata Vieira; Débora Abdalla

Cartas Indígenas ao Brasil: Classificação Multi-Rótulo

Caio Almeida, Renata Vieira, Débora Abdalla

Abstract

Este artigo investiga a classificação automática multi-rótulo de cartas indígenas ao Brasil em categorias temáticas. A partir do acervo digital "Cartas Indígenas ao Brasil", que constitui um corpus de 871 cartas anotadas em 18 categorias, comparamos três abordagens de classificação: um modelo lexical (TF-IDF + regressão logística), um modelo contextual (BERTimbau-base) e um classificador baseado em grandes modelos de linguagem (LLM). Para lidar com o desbalanceamento do corpus, empregamos estratégias de balanceamento de classes no modelo neural. Os resultados revelam um trade-off entre precisão e recall: o baseline lexical apresenta maior precisão (0,65), enquanto o BERTimbau demonstra maior recall (0,67), especialmente em categorias minoritárias. Ambos alcançam macro-F1 de 0,42, evidenciando que a classificação multi-rótulo neste domínio é uma tarefa desafiadora, em especial devido ao desbalanceamento do corpus e à sobreposição semântica entre categorias. O classificador baseado em LLM atinge alto recall, especialmente em categorias minoritárias, mas tende a superestimar o número de rótulos por documento, reforçando o trade-off entre precisão e cobertura observado nas outras duas abordagens. A análise detalhada por classe revela comportamentos complementares entre os modelos, sugerindo que abordagens híbridas podem superar as limitações individuais de cada método. O corpus e os scripts dos experimentos serão disponibilizados publicamente.

Anthology ID:: 2026.propor-1.70
Volume:: Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
Month:: April
Year:: 2026
Address:: Salvador, Brazil
Editors:: Marlo Souza, Iria de-Dios-Flores, Diana Santos, Larissa Freitas, Jackson Wilke da Cruz Souza, Eugénio Ribeiro
Venue:: PROPOR
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 708–716
Language:
URL:: https://aclanthology.org/2026.propor-1.70/
DOI:
Bibkey:
Cite (ACL):: Caio Almeida, Renata Vieira, and Débora Abdalla. 2026. Cartas Indígenas ao Brasil: Classificação Multi-Rótulo. In Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1, pages 708–716, Salvador, Brazil. Association for Computational Linguistics.
Cite (Informal):: Cartas Indígenas ao Brasil: Classificação Multi-Rótulo (Almeida et al., PROPOR 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.propor-1.70.pdf

PDF Cite Search Fix data