Gabriel Gonçalves de Matos
2026
Avaliação Automática de Redações do Enem: Um Estudo Empírico sobre Representações Linguísticas e Contextuais
Gabriel Gonçalves de Matos | Valéria D. Feltrim
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
Gabriel Gonçalves de Matos | Valéria D. Feltrim
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
A Avaliação Automática de Redações (AAR) para o português brasileiro ainda é uma tarefa desafiadora, particularmente no contexto do exame Enem, no qual a qualidade textual é avaliada por meio de múltiplas competências e as notas apresentam natureza ordinal. Neste artigo, investigamos estratégias de modelagem híbrida para AAR em nível de competência, combinando características linguísticas explícitas com representações contextuais. Utilizando o córpus Enem-AES, a avaliação de cada competência foi modelada como um problema de predição ordinal por meio do framework CORAL. Foi realizada uma comparação empírica controlada entre representações lexicais tradicionais, um amplo conjunto de métricas linguísticas extraídas com o sistema NILC-Metrix, características manuais orientadas à tarefa, embeddings contextuais e combinações dessas representações. Os resultados mostram que modelos híbridos alcançam o maior nível médio de concordância com as notas humanas, embora o desempenho varie entre competências e dependa do tipo de representação utilizada. Além disso, foi analisado o comportamento dos modelos em cenários de discordância entre avaliadores, o que evidenciou o impacto da variabilidade de anotação no desempenho dos modelos. De modo geral, os resultados fornecem evidências de que a combinação de indicadores linguísticos com embeddings contextuais constitui uma estratégia promissora para a tarefa de AAR no contexto do Enem.