Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire

Hai Hieu Vu, Jeanne Villaneau, Farida Saïd, Pierre-François Marteau


Abstract
Cet article présente une méthode pour mesurer la similarité sémantique entre phrases qui utilise Wikipédia comme unique ressource linguistique et qui est, de ce fait, utilisable pour un grand nombre de langues. Basée sur une représentation vectorielle, elle utilise une indexation aléatoire pour réduire la dimension des espaces manipulés. En outre, elle inclut une technique de calcul des vecteurs de termes qui corrige les défauts engendrés par l’utilisation d’un corpus aussi général que Wikipédia. Le système a été évalué sur les données de SemEval 2014 en anglais avec des résultats très encourageants, au-dessus du niveau moyen des systèmes en compétition. Il a également été testé sur un ensemble de paires de phrases en français, à partir de ressources que nous avons construites et qui seront mises à la libre disposition de la communauté scientifique.
Anthology ID:
2015.jeptalnrecital-long.19
Volume:
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2015
Address:
Caen, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
220–231
Language:
URL:
https://aclanthology.org/2015.jeptalnrecital-long.19
DOI:
Bibkey:
Cite (ACL):
Hai Hieu Vu, Jeanne Villaneau, Farida Saïd, and Pierre-François Marteau. 2015. Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire. In Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 220–231, Caen, France. ATALA.
Cite (Informal):
Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire (Vu et al., JEP/TALN/RECITAL 2015)
Copy Citation:
PDF:
https://aclanthology.org/2015.jeptalnrecital-long.19.pdf