2022
pdf
bib
abs
COMFO : Corpus Multilingue pour la Fouille d’Opinions (COMFO: Multilingual Corpus for Opinion Mining)
Lamine Faty
|
Khadim Drame
|
Edouard Ngor Sarr
|
Marie Ndiaye
|
Yoro Dia
|
Ousmane Sall
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
L’utilisation d’algorithmes de Machine Learning (ML) en fouille d’opinions notamment ceux d’apprentissage supervisé nécessite un corpus annoté pour entrainer le modèle de classification afin de prédire des résultats proches de la réalité. Malheureusement, il n’existe pas encore de ressources pour le traitement automatique de données textuelles exprimées dans le langage urbain sénégalais. L’objectif de cet article est de construire un corpus multilingue pour la fouille d’opinions (COMFO). Le processus de constitution du corpus COMFO est composé de trois étapes à savoir la présentation de la source de données, la collecte et préparation de données, et l’annotation par approche lexicale. La particularité de COMFO réside dans l’intégration des langues étrangères (française et anglaises) et celles locales notamment le wolof urbain afin de refléter l’opinion collective des lecteurs sénégalais.
2020
pdf
bib
abs
Approche supervisée de calcul de similarité sémantique entre paires de phrases (Supervised approach to compute semantic similarity between sentence pairs)
Khadim Dramé
|
Gorgoumack Sambe
|
Ibrahima Diop
|
Lamine Faty
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Atelier DÉfi Fouille de Textes
Ce papier décrit les méthodes que nous avons développées pour participer aux tâches 1 et 2 de l’édition 2020 du défi fouille de textes (DEFT 2020). Pour la première tâche, qui s’intéresse au calcul de scores de similarité sémantique entre paires de phrases, sur une échelle de 0 à 5, une approche supervisée où chaque paire de phrases est représentée par un ensemble d’attributs a été proposée. Des algorithmes classiques d’apprentissage automatique sont ensuite utilisés pour entrainer les modèles. Différentes mesures de similarité textuelle sont explorées et les plus pertinentes sont combinées pour supporter nos méthodes. Différentes combinaisons ont été testées et évaluées sur les données de test du DEFT 2020. Notre meilleur système qui s’appuie sur un modèle Random Forest a obtenu les meilleures performances sur la première tâche avec une EDRM de 0,8216.
2019
pdf
bib
abs
Indexation et appariement de documents cliniques avec le modèle vectoriel (Indexing and matching clinical documents using the vector space model)
Khadim Dramé
|
Ibrahima Diop
|
Lamine Faty
|
Birame Ndoye
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)
Dans ce papier, nous présentons les méthodes que nous avons développées pour participer aux tâches 1 et 2 de l’édition 2019 du défi fouille de textes (DEFT 2019). Pour la première tâche, qui s’intéresse à l’indexation de cas cliniques, une méthode utilisant la pondération TF-IDF (term frequency – inverse document frequency) a été proposée. Quant à la seconde tâche, la méthode proposée repose sur le modèle vectoriel pour apparier des discussions aux cas cliniques correspondants ; pour cela, le cosinus est utilisé comme mesure de similarité. L’indexation sémantique latente (latent semantic indexing – LSI) est également expérimentée pour étendre cette méthode. Pour chaque méthode, différentes configurations ont été testées et évaluées sur les données de test du DEFT 2019.