@inproceedings{guedes-etal-2026-identificacao,
title = "Identifica{\c{c}}{\~a}o de not{\'i}cias falsas em portugu{\^e}s: um olhar sobre a generaliza{\c{c}}{\~a}o de modelos",
author = "Guedes, Raphael and
Barros, Bruno and
Nascimento, Hugo do",
editor = "Souza, Marlo and
de-Dios-Flores, Iria and
Santos, Diana and
Freitas, Larissa and
Souza, Jackson Wilke da Cruz and
Ribeiro, Eug{\'e}nio",
booktitle = "Proceedings of the 17th International Conference on Computational Processing of {P}ortuguese ({PROPOR} 2026) - Vol. 1",
month = apr,
year = "2026",
address = "Salvador, Brazil",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2026.propor-1.71/",
pages = "717--726",
ISBN = "979-8-89176-387-6",
abstract = "A dissemina{\c{c}}{\~a}o de desinforma{\c{c}}{\~a}o em meios digitais requer mecanismos robustos de detec{\c{c}}{\~a}o, tarefa na qual modelos de linguagem apresentam desempenho satisfat{\'o}rio. Entretanto, s{\~a}o percebidas na literatura an{\'a}lises que desconsideram a caracter{\'i}stica da degrada{\c{c}}{\~a}o da capacidade de generaliza{\c{c}}{\~a}o dos modelos em dados reais, diferentes daqueles nos quais o treino ou ajuste fino foi realizado. Este trabalho investiga o comportamento dos modelos BERTimbau e mBERT em cen{\'a}rios de generaliza{\c{c}}{\~a}o cruzada (dados de teste diferentes dos dados de treinamento e valida{\c{c}}{\~a}o). Para isso, foi realizado um ajuste fino utilizando quatro corpora brasileiros (Fake.br, Fakepedia, FakeRecogna e FakeTrueBR). Os resultados confirmam a hip{\'o}tese de que avalia{\c{c}}{\~o}es intra-base t{\^e}m altas taxas de desempenho, enquanto avalia{\c{c}}{\~o}es entre-bases t{\^e}m baixas taxas e alta degrada{\c{c}}{\~a}o na generaliza{\c{c}}{\~a}o cruzada, ainda que o objetivo de identifica{\c{c}}{\~a}o de not{\'i}cias falsas seja mantido. Quanto {\`a} capacidade preditiva dos modelos, o BERTimbau se mostrou ligeiramente melhor na m{\'e}dia com 71{\%} de acur{\'a}cia e 67{\%} de f1-score contra 69{\%} e 64{\%}, respectivamente, para o mBERT."
}<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="guedes-etal-2026-identificacao">
<titleInfo>
<title>Identificação de notícias falsas em português: um olhar sobre a generalização de modelos</title>
</titleInfo>
<name type="personal">
<namePart type="given">Raphael</namePart>
<namePart type="family">Guedes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Bruno</namePart>
<namePart type="family">Barros</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Hugo</namePart>
<namePart type="given">do</namePart>
<namePart type="family">Nascimento</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2026-04</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<relatedItem type="host">
<titleInfo>
<title>Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1</title>
</titleInfo>
<name type="personal">
<namePart type="given">Marlo</namePart>
<namePart type="family">Souza</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Iria</namePart>
<namePart type="family">de-Dios-Flores</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Santos</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Larissa</namePart>
<namePart type="family">Freitas</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jackson</namePart>
<namePart type="given">Wilke</namePart>
<namePart type="given">da</namePart>
<namePart type="given">Cruz</namePart>
<namePart type="family">Souza</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eugénio</namePart>
<namePart type="family">Ribeiro</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>Association for Computational Linguistics</publisher>
<place>
<placeTerm type="text">Salvador, Brazil</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
<identifier type="isbn">979-8-89176-387-6</identifier>
</relatedItem>
<abstract>A disseminação de desinformação em meios digitais requer mecanismos robustos de detecção, tarefa na qual modelos de linguagem apresentam desempenho satisfatório. Entretanto, são percebidas na literatura análises que desconsideram a característica da degradação da capacidade de generalização dos modelos em dados reais, diferentes daqueles nos quais o treino ou ajuste fino foi realizado. Este trabalho investiga o comportamento dos modelos BERTimbau e mBERT em cenários de generalização cruzada (dados de teste diferentes dos dados de treinamento e validação). Para isso, foi realizado um ajuste fino utilizando quatro corpora brasileiros (Fake.br, Fakepedia, FakeRecogna e FakeTrueBR). Os resultados confirmam a hipótese de que avaliações intra-base têm altas taxas de desempenho, enquanto avaliações entre-bases têm baixas taxas e alta degradação na generalização cruzada, ainda que o objetivo de identificação de notícias falsas seja mantido. Quanto à capacidade preditiva dos modelos, o BERTimbau se mostrou ligeiramente melhor na média com 71% de acurácia e 67% de f1-score contra 69% e 64%, respectivamente, para o mBERT.</abstract>
<identifier type="citekey">guedes-etal-2026-identificacao</identifier>
<location>
<url>https://aclanthology.org/2026.propor-1.71/</url>
</location>
<part>
<date>2026-04</date>
<extent unit="page">
<start>717</start>
<end>726</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Identificação de notícias falsas em português: um olhar sobre a generalização de modelos
%A Guedes, Raphael
%A Barros, Bruno
%A Nascimento, Hugo do
%Y Souza, Marlo
%Y de-Dios-Flores, Iria
%Y Santos, Diana
%Y Freitas, Larissa
%Y Souza, Jackson Wilke da Cruz
%Y Ribeiro, Eugénio
%S Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
%D 2026
%8 April
%I Association for Computational Linguistics
%C Salvador, Brazil
%@ 979-8-89176-387-6
%F guedes-etal-2026-identificacao
%X A disseminação de desinformação em meios digitais requer mecanismos robustos de detecção, tarefa na qual modelos de linguagem apresentam desempenho satisfatório. Entretanto, são percebidas na literatura análises que desconsideram a característica da degradação da capacidade de generalização dos modelos em dados reais, diferentes daqueles nos quais o treino ou ajuste fino foi realizado. Este trabalho investiga o comportamento dos modelos BERTimbau e mBERT em cenários de generalização cruzada (dados de teste diferentes dos dados de treinamento e validação). Para isso, foi realizado um ajuste fino utilizando quatro corpora brasileiros (Fake.br, Fakepedia, FakeRecogna e FakeTrueBR). Os resultados confirmam a hipótese de que avaliações intra-base têm altas taxas de desempenho, enquanto avaliações entre-bases têm baixas taxas e alta degradação na generalização cruzada, ainda que o objetivo de identificação de notícias falsas seja mantido. Quanto à capacidade preditiva dos modelos, o BERTimbau se mostrou ligeiramente melhor na média com 71% de acurácia e 67% de f1-score contra 69% e 64%, respectivamente, para o mBERT.
%U https://aclanthology.org/2026.propor-1.71/
%P 717-726
Markdown (Informal)
[Identificação de notícias falsas em português: um olhar sobre a generalização de modelos](https://aclanthology.org/2026.propor-1.71/) (Guedes et al., PROPOR 2026)
ACL