Caracterização lexical e sintática de notícias falsas em português produzidas por humanos e por máquinas

Pedro Lucas Castro de Andrade; Renato Silva; Thiago Alexandre Salgueiro Pardo

Caracterização lexical e sintática de notícias falsas em português produzidas por humanos e por máquinas

Pedro Lucas Castro de Andrade, Renato Silva, Thiago Alexandre Salgueiro Pardo

Abstract

Notícias falsas são um grande problema para a sociedade. Com a Inteligência Artificial generativa, notícias falsas produzidas pela máquina têm se proliferado, tornando o cenário mais desafiador. Apesar da relevância desse problema, em línguas sub-representadas como o Português, as pesquisas que buscam diferenciar notícias falsas de humanos e de máquinas são incipientes. Buscando preencher essa lacuna, este artigo explora os corpora Fake.br e FakeTrueBR expandidos com notícias falsas geradas automaticamente, caracterizando lexical e sintaticamente as notícias falsas produzidas por humanos e por máquina. Os resultados mostram que textos gerados por máquina apresentam palavras significativamente mais longas, maior uso de modificadores adjetivais e menor diversidade sintática, apesar de utilizarem mais regras sintáticas por sentença. Em contrapartida, textos humanos exibem maior variabilidade estilística em todas as dimensões analisadas.

Anthology ID:: 2026.propor-2.22
Volume:: Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 2
Month:: April
Year:: 2026
Address:: Salvador, Brazil
Editors:: Marlo Souza, Iria de-Dios-Flores, Diana Santos, Larissa Freitas, Jackson Wilke da Cruz Souza, Eugénio Ribeiro
Venue:: PROPOR
SIG:
Publisher:: Association for Computational Linguistics
Note:
Pages:: 148–158
Language:
URL:: https://aclanthology.org/2026.propor-2.22/
DOI:
Bibkey:
Cite (ACL):: Pedro Lucas Castro de Andrade, Renato Silva, and Thiago Alexandre Salgueiro Pardo. 2026. Caracterização lexical e sintática de notícias falsas em português produzidas por humanos e por máquinas. In Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 2, pages 148–158, Salvador, Brazil. Association for Computational Linguistics.
Cite (Informal):: Caracterização lexical e sintática de notícias falsas em português produzidas por humanos e por máquinas (Andrade et al., PROPOR 2026)
Copy Citation:
PDF:: https://aclanthology.org/2026.propor-2.22.pdf

PDF Cite Search Fix data