Mustapha Derras


2021

pdf bib
Extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie dans un corpus métier (Automatic extraction of hypernym and hyponym relations in a professional corpus)
Camille Gosset | Mokhtar Boumedyen Billami | Mathieu Lafourcade | Christophe Bortolaso | Mustapha Derras
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Nous nous intéressons dans cet article à l’extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie à partir d’un corpus de spécialités métier. Le corpus regroupe des ouvrages et articles en français d’expertise juridique et a été partiellement annoté en termes-clés par des experts. Nous prétraitons ces annotations afin de pouvoir les retrouver dans ce corpus et obtenir un concept général pour extraire les relations entre ces termes. Nous décrivons une étude expérimentale qui compare plusieurs méthodes de classification appliquées sur des vecteurs de relations construits à partir d’un modèle Word2Vec. Nous comparons les résultats obtenus grâce à un jeu de données construit à partir de relations d’hyperonymie tirées d’un réseau lexico-sémantique français que nous inversons pour obtenir les relations d’hyponymie. Nos résultats montrent que nous obtenons une classification pouvant atteindre un taux d’exactitude de 92 %.

2020

pdf bib
Extraction de thèmes d’un corpus de demandes de support pour un logiciel de relation citoyen (Topic extraction from a corpus of support requests for citizen relations software)
Mokhtar Boumedyen Billami | Christophe Bortolaso | Mustapha Derras
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles

Nous nous intéressons dans cet article à l’extraction de thèmes (topics) à partir de commentaires textuels provenant des demandes de support de l’éditeur de logiciel Berger-Levrault. Le corpus de demandes analysé est celui d’un outil de gestion de la relation citoyen. Ce corpus n’est pas formaté et est peu structuré avec plusieurs locuteurs qui interviennent (le citoyen et un ou plusieurs techniciens support). Nous décrivons une étude expérimentale qui repose sur l’utilisation de deux systèmes. Le premier système applique une LDA (Allocation Dirichlet Latente), tandis que le second combine l’application d’une LDA avec l’algorithme k-Moyennes (k-Means). Nous comparons nos résultats avec un échantillon de ce corpus, annoté par un expert du domaine. Nos résultats montrent que nous obtenons une classification de meilleure qualité comparable avec celle effectuée manuellement par un expert en utilisant une combinaison LDA/k-Moyennes.