Identificação de notícias falsas em português: um olhar sobre a generalização de modelos

Raphael Guedes, Bruno Barros, Hugo do Nascimento


Abstract
A disseminação de desinformação em meios digitais requer mecanismos robustos de detecção, tarefa na qual modelos de linguagem apresentam desempenho satisfatório. Entretanto, são percebidas na literatura análises que desconsideram a característica da degradação da capacidade de generalização dos modelos em dados reais, diferentes daqueles nos quais o treino ou ajuste fino foi realizado. Este trabalho investiga o comportamento dos modelos BERTimbau e mBERT em cenários de generalização cruzada (dados de teste diferentes dos dados de treinamento e validação). Para isso, foi realizado um ajuste fino utilizando quatro corpora brasileiros (Fake.br, Fakepedia, FakeRecogna e FakeTrueBR). Os resultados confirmam a hipótese de que avaliações intra-base têm altas taxas de desempenho, enquanto avaliações entre-bases têm baixas taxas e alta degradação na generalização cruzada, ainda que o objetivo de identificação de notícias falsas seja mantido. Quanto à capacidade preditiva dos modelos, o BERTimbau se mostrou ligeiramente melhor na média com 71% de acurácia e 67% de f1-score contra 69% e 64%, respectivamente, para o mBERT.
Anthology ID:
2026.propor-1.71
Volume:
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
Month:
April
Year:
2026
Address:
Salvador, Brazil
Editors:
Marlo Souza, Iria de-Dios-Flores, Diana Santos, Larissa Freitas, Jackson Wilke da Cruz Souza, Eugénio Ribeiro
Venue:
PROPOR
SIG:
Publisher:
Association for Computational Linguistics
Note:
Pages:
717–726
Language:
URL:
https://aclanthology.org/2026.propor-1.71/
DOI:
Bibkey:
Cite (ACL):
Raphael Guedes, Bruno Barros, and Hugo do Nascimento. 2026. Identificação de notícias falsas em português: um olhar sobre a generalização de modelos. In Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1, pages 717–726, Salvador, Brazil. Association for Computational Linguistics.
Cite (Informal):
Identificação de notícias falsas em português: um olhar sobre a generalização de modelos (Guedes et al., PROPOR 2026)
Copy Citation:
PDF:
https://aclanthology.org/2026.propor-1.71.pdf