Valéria Delisandra Feltrim

Also published as: Valéria Feltrim, Valéria D. Feltrim

2026

Avaliação Automática de Redações do Enem: Uma Análise Comparativa entre Engenharia de Características e Transformers
Pâmela Camilo Chalegre | Vitor da Rocha Machado | Valéria Delisandra Feltrim
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1

A Avaliação Automática de Redações (AES) é um desafio central em avaliações educacionais de larga escala, como o Exame Nacional do Ensino Médio (Enem), no qual redações são avaliadas em múltiplas competências. Este trabalho apresenta uma análise comparativa de representações textuais para a AES em nível de competência no português brasileiro. Foram avaliados modelos baseados em características utilizando TF-IDF, métricas linguísticas extraídas com o NILC-Metrix e uma combinação híbrida de ambos, além de modelos baseados em transformers. Os experimentos foram conduzidos sobre o corpus Enem-AES, considerando formulações de classificação e de regressão. Os resultados indicam que formulações de regressão são, em geral, mais adequadas do que as de classificação multiclasse, pois acomodam melhor a estrutura ordinal das notas. Modelos baseados em transformers alcançaram uma concordância maior em competências relacionadas ao uso da linguagem e à coesão textual, enquanto representações baseadas em características demonstraram um desempenho comparável em competências associadas à pertinência temática. Apesar de alcançarem alta acurácia sob o critério de tolerância do Enem, todas as abordagens demonstraram dificuldade em prever notas extremas, principalmente devido ao desbalanceamento do corpus. Dessa forma, conclui-se que as metodologias são complementares e que sistemas híbridos são promissores para a AES.

pdf bib abs

Automatic Question classification in Portuguese: A Large-Scale Dataset and Comparative Evaluation of Classification Strategies
Murilo Boccardo | Valéria D. Feltrim
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1

This paper presents a comparative evaluation of automatic classification strategies for Brazilian university entrance exam questions by subject and fine-grained topic. A central contribution of this study is the creation and curation of a large-scale Portuguese-language dataset comprising approximately 17,000 questions collected from the Agatha.edu platform, carefully cleaned and normalized. We investigated two alternative classification strategies: a single-step approach that directly predicts fine-grained topics and a two-stage approach in which an initial model predicts the subject, followed by specialized topic classifiers. These strategies were evaluated using both classical machine learning methods, such as Support Vector Machines, Naive Bayes, and Random Forest, and transformer-based language models pre-trained for Portuguese. Experimental results show the feasibility of large-scale automatic question classification and highlight the potential of NLP-based classification strategies to support the curation, analysis, and organization of educational question banks.

pdf bib abs

Avaliação Automática de Redações do Enem: Um Estudo Empírico sobre Representações Linguísticas e Contextuais
Gabriel Gonçalves de Matos | Valéria D. Feltrim
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1

A Avaliação Automática de Redações (AAR) para o português brasileiro ainda é uma tarefa desafiadora, particularmente no contexto do exame Enem, no qual a qualidade textual é avaliada por meio de múltiplas competências e as notas apresentam natureza ordinal. Neste artigo, investigamos estratégias de modelagem híbrida para AAR em nível de competência, combinando características linguísticas explícitas com representações contextuais. Utilizando o córpus Enem-AES, a avaliação de cada competência foi modelada como um problema de predição ordinal por meio do framework CORAL. Foi realizada uma comparação empírica controlada entre representações lexicais tradicionais, um amplo conjunto de métricas linguísticas extraídas com o sistema NILC-Metrix, características manuais orientadas à tarefa, embeddings contextuais e combinações dessas representações. Os resultados mostram que modelos híbridos alcançam o maior nível médio de concordância com as notas humanas, embora o desempenho varie entre competências e dependa do tipo de representação utilizada. Além disso, foi analisado o comportamento dos modelos em cenários de discordância entre avaliadores, o que evidenciou o impacto da variabilidade de anotação no desempenho dos modelos. De modo geral, os resultados fornecem evidências de que a combinação de indicadores linguísticos com embeddings contextuais constitui uma estratégia promissora para a tarefa de AAR no contexto do Enem.

2015

pdf bib

Campos Aleatórios Condicionais Aplicados à Detecção de Estrutura Retórica em Resumos de Textos Acadêmicos em Português (Conditional Random Fields Applied to Rhetorical Structure Detection in Academic Abstracts in Portuguese)
Alexandre C. Andreani | Valéria D. Feltrim
Proceedings of the 10th Brazilian Symposium in Information and Human Language Technology

pdf bib

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade (Automatic Analysis of Textual Coherence in Scientific Abstracts: Evaluating Linearity Breaks)
Leandro Lago da Silva | Valéria Delisandra Feltrim
Proceedings of the 10th Brazilian Symposium in Information and Human Language Technology

pdf bib

Extração de Alvos em Comentários de Notícias em Português baseada na Teoria da Centralização (Target Extraction in News Reviews in Portuguese based on Centering Theory)
Frank Willian Cardoso de Oliveira | Valéria Delisandra Feltrim
Proceedings of the 10th Brazilian Symposium in Information and Human Language Technology

2013

pdf bib

Uma Investigação sobre Algoritmos de Diferentes Abordagens de Aprendizado Supervisionado na Classificação de Papéis Retóricos em Resumos Científicos (Investigating Algorithms from Different Approaches of Supervised Learning for the Classification of Rhetorical Roles in Scientific Abstracts) [in Portuguese]
Vinícius M. A. de Souza | Valéria D. Feltrim
Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology

pdf bib

Análise Automática de Coerência Usando o Modelo Grade de Entidades para o Português (Automatic Coherence Analysis Using the Entity-grid Model for Portuguese) [in Portuguese]
Alison R. P. Freitas | Valéria D. Feltrim
Proceedings of the 9th Brazilian Symposium in Information and Human Language Technology

2012

pdf bib abs

Rhetorical Move Detection in English Abstracts: Multi-label Sentence Classifiers and their Annotated Corpora
Carmen Dayrell | Arnaldo Candido Jr. | Gabriel Lima | Danilo Machado Jr. | Ann Copestake | Valéria Feltrim | Stella Tagnin | Sandra Aluisio
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

The relevance of automatically identifying rhetorical moves in scientific texts has been widely acknowledged in the literature. This study focuses on abstracts of standard research papers written in English and aims to tackle a fundamental limitation of current machine-learning classifiers: they are mono-labeled, that is, a sentence can only be assigned one single label. However, such approach does not adequately reflect actual language use since a move can be realized by a clause, a sentence, or even several sentences. Here, we present MAZEA (Multi-label Argumentative Zoning for English Abstracts), a multi-label classifier which automatically identifies rhetorical moves in abstracts but allows for a given sentence to be assigned as many labels as appropriate. We have resorted to various other NLP tools and used two large training corpora: (i) one corpus consists of 645 abstracts from physical sciences and engineering (PE) and (ii) the other corpus is made up of 690 from life and health sciences (LH). This paper presents our preliminary results and also discusses the various challenges involved in multi-label tagging and works towards satisfactory solutions. In addition, we also make our two training corpora publicly available so that they may serve as benchmark for this new task.

2011

pdf bib

Análise automática de aspectos relacionados a coerência semântica em resumos acadêmicos (Automatic Analysis of Semantic Coherence Aspects in Academic Abstracts) [in Portuguese]
Vinícius Mourão Alves de Souza | Valéria Delisandra Feltrim
Proceedings of the 8th Brazilian Symposium in Information and Human Language Technology

pdf bib

Automatic Analysis of Semantic Coherence in Academic Abstracts Written in Portuguese
Vinícius Mourão Alves de Souza | Valéria Delisandra Feltrim
Proceedings of 5th International Joint Conference on Natural Language Processing