Une approche cognitive de la fouille de grandes collections de documents

Adil El Ghali, Yann Vigile Hoareau


Abstract
La récente éclosion du Web2.0 engendre un accroissement considérable de volumes textuels et intensifie ainsi l’importance d’une réflexion sur l’exploitation des connaissances à partir de grandes collections de documents. Dans cet article, nous présentons une approche de rechercher d’information qui s’inspire des certaines recherches issues de la psychologie cognitive pour la fouille de larges collections de documents. Nous utilisons un document comme requête permettant de récupérer des informations à partir d’une collection représentée dans un espace sémantique. Nous définissons les notions d’identité sémantique et de pollution sémantique dans un espace de documents. Nous illustrons notre approche par la description d’un système appelé BRAT (Blogosphere Random Analysis using Texts) basé sur les notions préalablement introduites d’identité et de pollution sématique appliquées à une tâche d’identification des actualités dans la blogosphère mondiale lors du concours TREC’09. Les premiers résultats produits sont tout à fait encourageant et indiquent les pistes des recherches à mettre en oeuvre afin d’améliorer les performances de BRAT.
Anthology ID:
2010.jeptalnrecital-long.6
Volume:
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
July
Year:
2010
Address:
Montréal, Canada
Editors:
Philippe Langlais, Michel Gagnon
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
51–60
Language:
French
URL:
https://aclanthology.org/2010.jeptalnrecital-long.6
DOI:
Bibkey:
Cite (ACL):
Adil El Ghali and Yann Vigile Hoareau. 2010. Une approche cognitive de la fouille de grandes collections de documents. In Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 51–60, Montréal, Canada. ATALA.
Cite (Informal):
Une approche cognitive de la fouille de grandes collections de documents (El Ghali & Vigile Hoareau, JEP/TALN/RECITAL 2010)
Copy Citation:
PDF:
https://aclanthology.org/2010.jeptalnrecital-long.6.pdf