Fernanda Olival

2026

Fauna e Flora setecentista: das Entidades Nomeadas aos problemas de normalização
Helena Freire Cameron | Fernanda Olival | Daniel Reyes | Renata Vieira
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 2

Este artigo aborda tarefas de etapas anteriores ao processamento computacional de fontes históricas do século XVIII, em língua portuguesa. O trabalho desenvolvido incidiu em domínios muito especializados: fauna e flora. Por esta última característica, esperava-se um fraco nível de ambiguidade vocabular, mas assim não aconteceu. Por isso, apresenta-se um roteiro do processo de normalização ortográfica; descreve-se a constituição do corpus anotado de Entidades Nomeadas e, sobretudo, discutem-se problemas ligados à variação lexical nestes thesauri de especialidade e os constrangimentos do processo. Desta forma, pretende-se contribuir para a reflexão sobre o que é o processo de normalização de fontes históricas e chamar a atenção para a importância das boas práticas neste quadro.

pdf bib abs

Analysing LLMs for spelling normalization of 18th century Portuguese
Helena Freire Cameron | Aline Paes | Fernanda Olival | Renata Vieira
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1

This paper presents an evaluation of large language models (LLMs) applied to the task of normalizing eighteenth-century written texts. Several LLMs were employed to process texts in pre-contemporary spellings and update them according to contemporary Portuguese orthography. Their outputs were rigorously compared against a curated reference corpus. The findings indicate marked disparities in model performance, with the Portuguese-specialized model Sabiá demonstrating a statistically significant advantage over multilingual alternatives.

Fernanda Olival

2026

2024

Co-authors

Venues