Léonard De Vinci


2025

pdf bib
UC-FIRe: Approche efficace pour la recherche d’informations non supervisée
Maxime Hanus | Quentin Guignard | Christophe Rodrigues | Léonard De Vinci
Actes de la 20e Conférence en Recherche d’Information et Applications (CORIA)

Nous présentons un modèle de recherche d’informations non supervisé conciliant efficacité et faible coût computationnel, fonctionnant uniquement sur CPU. Plutôt que de remplacer BM25, nous l’améliorons en réduisant l’écart lexical. Notre méthode repose sur l’entraînement de vecteurs de mots FastText et la construction de matrices de coexistence et de similarité pour regrouper des mots interchangeables en clusters. Documents et requêtes sont réécrits avec ces clusters, améliorant la pertinence des résultats sans alourdir l’inférence. Expérimenté sur plusieurs corpus de BEIR, notre modèle surpasse des approches plus coûteuses en calcul et obtient de meilleures performances que BM25 sur diverses métriques, tout en conservant une vitesse d’inférence similaire. Cette recherche démontre que notre méthode offre une alternative pratique, scalable et économique aux modèles denses et hybrides, facilitant son adoption dans des systèmes de recherche réels. UC-FIRe est disponible publiquement : https://github.com/Limekaaa/UC-FIRe.