Mots composés dans les modèles de langue pour la recherche d’information

Carmen Alvarez, Philippe Langlais, Jian-Yun Nie


Abstract
Une approche classique en recherche d’information (RI) consiste à bâtir une représentation des documents et des requêtes basée sur les mots simples les constituant. L’utilisation de modèles bigrammes a été étudiée, mais les contraintes sur l’ordre et l’adjacence des mots dans ces travaux ne sont pas toujours justifiées pour la recherche d’information. Nous proposons une nouvelle approche basée sur les modèles de langue qui incorporent des affinités lexicales (ALs), c’est à dire des paires non ordonnées de mots qui se trouvent proches dans un texte. Nous décrivons ce modèle et le comparons aux plus traditionnels modèles unigrammes et bigrammes ainsi qu’au modèle vectoriel.
Anthology ID:
2004.jeptalnrecital-poster.1
Volume:
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Month:
April
Year:
2004
Address:
Fès, Maroc
Editors:
Philippe Blache, Noël Nguyen, Nouredine Chenfour, Abdenbi Rajouani
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
1–6
Language:
French
URL:
https://aclanthology.org/2004.jeptalnrecital-poster.1
DOI:
Bibkey:
Cite (ACL):
Carmen Alvarez, Philippe Langlais, and Jian-Yun Nie. 2004. Mots composés dans les modèles de langue pour la recherche d’information. In Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Posters, pages 1–6, Fès, Maroc. ATALA.
Cite (Informal):
Mots composés dans les modèles de langue pour la recherche d’information (Alvarez et al., JEP/TALN/RECITAL 2004)
Copy Citation:
PDF:
https://aclanthology.org/2004.jeptalnrecital-poster.1.pdf