Emmanuel Eckard
2012
Dictionary-ontology cross-enrichment
Emmanuel Eckard
|
Lucie Barque
|
Alexis Nasr
|
Benoît Sagot
Proceedings of the 3rd Workshop on Cognitive Aspects of the Lexicon
2009
Utilisation de PLSI en recherche d’information Représentation des requêtes
Jean-Cédric Chappelier
|
Emmanuel Eckard
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Le modèle PLSI (« Probabilistic Latent Semantic Indexing ») offre une approche de l’indexation de documents fondée sur des modèles probabilistes de catégories sémantiques latentes et a conduit à des applications dans différents domaines. Toutefois, ce modèle rend impossible le traitement de documents inconnus au moment de l’apprentissage, problème particulièrement sensible pour la représentation des requêtes dans le cadre de la recherche d’information. Une méthode, dite de « folding-in », permet dans une certaine mesure de contourner ce problème, mais présente des faiblesses. Cet article introduit nouvelle une mesure de similarité document-requête pour PLSI, fondée sur lesmodèles de langue, où le problème du « folding-in » ne se pose pas. Nous comparons cette nouvelle similarité aux noyaux de Fisher, l’état de l’art en la matière. Nous présentons aussi une évaluation de PLSI sur un corpus de recherche d’information de près de 7500 documents et de plus d’un million d’occurrences de termes provenant de la collection TREC–AP, une taille considérable dans le cadre de PLSI.