Rhedson Esashika
2026
Discovery of Legal Patterns in Civil Petitions via LLM-Based Fact Extraction and Density Clustering
Rhedson Esashika | Carlos M. S. Figueiredo | Tiago de Melo
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
Rhedson Esashika | Carlos M. S. Figueiredo | Tiago de Melo
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
The analysis of unstructured civil petitions is often hindered by procedural noise and verbose argumentation. To address this, we propose a pipeline composed of LLM-based fact extraction followed by legal-domain embeddings of texts for unsupervised density clustering. We employ Large Language Models to isolate factual narratives from raw texts, which are then encoded using domain-specific representations (Legal-BERT) and grouped via UMAP dimensionality reduction and the HDBSCAN algorithm. Comparative experiments on a Brazilian judicial corpus reveal that clustering based solely on extracted yields significantly more cohesive and semantically well-defined groups than, which suffer from fragmentation due to content variability. Results indicate that the proposed method is a promising approach for thematic organization, procedural triage support, and large-scale discovery of legal patterns.
AspectRAG: Uma Arquitetura de Recuperação e Geração para Análise de Sentimentos Baseada em Aspectos
Erick R. Ribeiro | André Carvalho | Rhedson Esashika
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
Erick R. Ribeiro | André Carvalho | Rhedson Esashika
Proceedings of the 17th International Conference on Computational Processing of Portuguese (PROPOR 2026) - Vol. 1
Propomos o AspectRAG, uma arquitetura de Recuperação e Geração para ASTE em português que opera sem treinamento supervisionado. O método extrai aspectos com um LLM, codifica-os como vetores densos e usa apenas esses vetores para recuperar evidências altamente específicas por meio de busca aproximada e fusão de rankings. As evidências recuperadas compõem o contexto do modelo gerador, que produz as triplas finais. Nos datasets ReLi e ReHol, o AspectRAG obtém até 93,47% em ATE, 80,68% em OTE e 69,83% em ASTE, superando modelos supervisionados como OTE-MTL, CMLA-MTL e BOTE, o estado da arte em Português. O estudo de ablação evidencia que a recuperação semântica guiada por aspectos é o principal fator responsável pelos ganhos observados, enquanto o tamanho do LLM tem impacto secundário. Os resultados mostram que a arquitetura AspectRAG é uma solução eficiente, e competitiva mesmo sem fine-tuning, apoiando-se apenas em recuperação vetorial e inferência contextualizada.