Identificação de notícias falsas em português: um olhar sobre a generalização de modelos

Raphael Guedes; Bruno Barros; Hugo do Nascimento

Identificação de notícias falsas em português: um olhar sobre a generalização de modelos

Raphael Guedes, Bruno Barros, Hugo do Nascimento

Abstract

A disseminação de desinformação em meios digitais requer mecanismos robustos de detecção, tarefa na qual modelos de linguagem apresentam desempenho satisfatório. Entretanto, são percebidas na literatura análises que desconsideram a característica da degradação da capacidade de generalização dos modelos em dados reais, diferentes daqueles nos quais o treino ou ajuste fino foi realizado. Este trabalho investiga o comportamento dos modelos BERTimbau e mBERT em cenários de generalização cruzada (dados de teste diferentes dos dados de treinamento e validação). Para isso, foi realizado um ajuste fino utilizando quatro corpora brasileiros (Fake.br, Fakepedia, FakeRecogna e FakeTrueBR). Os resultados confirmam a hipótese de que avaliações intra-base têm altas taxas de desempenho, enquanto avaliações entre-bases têm baixas taxas e alta degradação na generalização cruzada, ainda que o objetivo de identificação de notícias falsas seja mantido. Quanto à capacidade preditiva dos modelos, o BERTimbau se mostrou ligeiramente melhor na média com 71% de acurácia e 67% de f1-score contra 69% e 64%, respectivamente, para o mBERT.

Anthology ID:: 2026.propor-1.71
Volume:: Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
Month:: April
Year:: 2026
Address:: Salvador, Brazil
Editors:: Marlo Souza, Iria de-Dios-Flores, Diana Santos, Larissa Freitas, Jackson Wilke da Cruz Souza, Eugénio Ribeiro
Venue:: PROPOR
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 717–726
Language:
URL:: https://aclanthology.org/2026.propor-1.71/
DOI:
Bibkey:
Cite (ACL):: Raphael Guedes, Bruno Barros, and Hugo do Nascimento. 2026. Identificação de notícias falsas em português: um olhar sobre a generalização de modelos. In Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1, pages 717–726, Salvador, Brazil. Association for Computational Linguistics.
Cite (Informal):: Identificação de notícias falsas em português: um olhar sobre a generalização de modelos (Guedes et al., PROPOR 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.propor-1.71.pdf

PDF Cite Search Fix data