@inproceedings{almeida-etal-2026-cartas,
title = "Cartas Ind{\'i}genas ao Brasil: Classifica{\c{c}}{\~a}o Multi-R{\'o}tulo",
author = "Almeida, Caio and
Vieira, Renata and
Abdalla, D{\'e}bora",
editor = "Souza, Marlo and
de-Dios-Flores, Iria and
Santos, Diana and
Freitas, Larissa and
Souza, Jackson Wilke da Cruz and
Ribeiro, Eug{\'e}nio",
booktitle = "Proceedings of the 17th International Conference on Computational Processing of {P}ortuguese ({PROPOR} 2026) - Vol. 1",
month = apr,
year = "2026",
address = "Salvador, Brazil",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2026.propor-1.70/",
pages = "708--716",
ISBN = "979-8-89176-387-6",
abstract = "Este artigo investiga a classifica{\c{c}}{\~a}o autom{\'a}tica multi-r{\'o}tulo de cartas ind{\'i}genas ao Brasil em categorias tem{\'a}ticas. A partir do acervo digital ``Cartas Ind{\'i}genas ao Brasil'', que constitui um corpus de 871 cartas anotadas em 18 categorias, comparamos tr{\^e}s abordagens de classifica{\c{c}}{\~a}o: um modelo lexical (TF-IDF + regress{\~a}o log{\'i}stica), um modelo contextual (BERTimbau-base) e um classificador baseado em grandes modelos de linguagem (LLM). Para lidar com o desbalanceamento do corpus, empregamos estrat{\'e}gias de balanceamento de classes no modelo neural. Os resultados revelam um trade-off entre precis{\~a}o e recall: o baseline lexical apresenta maior precis{\~a}o (0,65), enquanto o BERTimbau demonstra maior recall (0,67), especialmente em categorias minorit{\'a}rias. Ambos alcan{\c{c}}am macro-F1 de 0,42, evidenciando que a classifica{\c{c}}{\~a}o multi-r{\'o}tulo neste dom{\'i}nio {\'e} uma tarefa desafiadora, em especial devido ao desbalanceamento do corpus e {\`a} sobreposi{\c{c}}{\~a}o sem{\^a}ntica entre categorias. O classificador baseado em LLM atinge alto recall, especialmente em categorias minorit{\'a}rias, mas tende a superestimar o n{\'u}mero de r{\'o}tulos por documento, refor{\c{c}}ando o trade-off entre precis{\~a}o e cobertura observado nas outras duas abordagens. A an{\'a}lise detalhada por classe revela comportamentos complementares entre os modelos, sugerindo que abordagens h{\'i}bridas podem superar as limita{\c{c}}{\~o}es individuais de cada m{\'e}todo. O corpus e os scripts dos experimentos ser{\~a}o disponibilizados publicamente."
}<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="almeida-etal-2026-cartas">
<titleInfo>
<title>Cartas Indígenas ao Brasil: Classificação Multi-Rótulo</title>
</titleInfo>
<name type="personal">
<namePart type="given">Caio</namePart>
<namePart type="family">Almeida</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Renata</namePart>
<namePart type="family">Vieira</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Débora</namePart>
<namePart type="family">Abdalla</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2026-04</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<relatedItem type="host">
<titleInfo>
<title>Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1</title>
</titleInfo>
<name type="personal">
<namePart type="given">Marlo</namePart>
<namePart type="family">Souza</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Iria</namePart>
<namePart type="family">de-Dios-Flores</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Santos</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Larissa</namePart>
<namePart type="family">Freitas</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jackson</namePart>
<namePart type="given">Wilke</namePart>
<namePart type="given">da</namePart>
<namePart type="given">Cruz</namePart>
<namePart type="family">Souza</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eugénio</namePart>
<namePart type="family">Ribeiro</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>Association for Computational Linguistics</publisher>
<place>
<placeTerm type="text">Salvador, Brazil</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
<identifier type="isbn">979-8-89176-387-6</identifier>
</relatedItem>
<abstract>Este artigo investiga a classificação automática multi-rótulo de cartas indígenas ao Brasil em categorias temáticas. A partir do acervo digital “Cartas Indígenas ao Brasil”, que constitui um corpus de 871 cartas anotadas em 18 categorias, comparamos três abordagens de classificação: um modelo lexical (TF-IDF + regressão logística), um modelo contextual (BERTimbau-base) e um classificador baseado em grandes modelos de linguagem (LLM). Para lidar com o desbalanceamento do corpus, empregamos estratégias de balanceamento de classes no modelo neural. Os resultados revelam um trade-off entre precisão e recall: o baseline lexical apresenta maior precisão (0,65), enquanto o BERTimbau demonstra maior recall (0,67), especialmente em categorias minoritárias. Ambos alcançam macro-F1 de 0,42, evidenciando que a classificação multi-rótulo neste domínio é uma tarefa desafiadora, em especial devido ao desbalanceamento do corpus e à sobreposição semântica entre categorias. O classificador baseado em LLM atinge alto recall, especialmente em categorias minoritárias, mas tende a superestimar o número de rótulos por documento, reforçando o trade-off entre precisão e cobertura observado nas outras duas abordagens. A análise detalhada por classe revela comportamentos complementares entre os modelos, sugerindo que abordagens híbridas podem superar as limitações individuais de cada método. O corpus e os scripts dos experimentos serão disponibilizados publicamente.</abstract>
<identifier type="citekey">almeida-etal-2026-cartas</identifier>
<location>
<url>https://aclanthology.org/2026.propor-1.70/</url>
</location>
<part>
<date>2026-04</date>
<extent unit="page">
<start>708</start>
<end>716</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Cartas Indígenas ao Brasil: Classificação Multi-Rótulo
%A Almeida, Caio
%A Vieira, Renata
%A Abdalla, Débora
%Y Souza, Marlo
%Y de-Dios-Flores, Iria
%Y Santos, Diana
%Y Freitas, Larissa
%Y Souza, Jackson Wilke da Cruz
%Y Ribeiro, Eugénio
%S Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
%D 2026
%8 April
%I Association for Computational Linguistics
%C Salvador, Brazil
%@ 979-8-89176-387-6
%F almeida-etal-2026-cartas
%X Este artigo investiga a classificação automática multi-rótulo de cartas indígenas ao Brasil em categorias temáticas. A partir do acervo digital “Cartas Indígenas ao Brasil”, que constitui um corpus de 871 cartas anotadas em 18 categorias, comparamos três abordagens de classificação: um modelo lexical (TF-IDF + regressão logística), um modelo contextual (BERTimbau-base) e um classificador baseado em grandes modelos de linguagem (LLM). Para lidar com o desbalanceamento do corpus, empregamos estratégias de balanceamento de classes no modelo neural. Os resultados revelam um trade-off entre precisão e recall: o baseline lexical apresenta maior precisão (0,65), enquanto o BERTimbau demonstra maior recall (0,67), especialmente em categorias minoritárias. Ambos alcançam macro-F1 de 0,42, evidenciando que a classificação multi-rótulo neste domínio é uma tarefa desafiadora, em especial devido ao desbalanceamento do corpus e à sobreposição semântica entre categorias. O classificador baseado em LLM atinge alto recall, especialmente em categorias minoritárias, mas tende a superestimar o número de rótulos por documento, reforçando o trade-off entre precisão e cobertura observado nas outras duas abordagens. A análise detalhada por classe revela comportamentos complementares entre os modelos, sugerindo que abordagens híbridas podem superar as limitações individuais de cada método. O corpus e os scripts dos experimentos serão disponibilizados publicamente.
%U https://aclanthology.org/2026.propor-1.70/
%P 708-716
Markdown (Informal)
[Cartas Indígenas ao Brasil: Classificação Multi-Rótulo](https://aclanthology.org/2026.propor-1.70/) (Almeida et al., PROPOR 2026)
ACL
- Caio Almeida, Renata Vieira, and Débora Abdalla. 2026. Cartas Indígenas ao Brasil: Classificação Multi-Rótulo. In Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1, pages 708–716, Salvador, Brazil. Association for Computational Linguistics.