This paper describes our two deep learning systems that competed at SemEval-2022 Task 1 “CODWOE: Comparing Dictionaries and WOrd Embeddings”. We participated in the subtask for the reverse dictionary which consists in generating vectors from glosses. We use sequential models that integrate several neural networks, starting from Embeddings networks until the use of Dense networks, Bidirectional Long Short-Term Memory (BiLSTM) networks and LSTM networks. All glosses have been preprocessed in order to consider the best representation form of the meanings for all words that appears. We achieved very competitive results in reverse dictionary with a second position in English and French languages when using contextualized embeddings, and the same position for English, French and Spanish languages when using char embeddings.
This paper presents our system for document-level semantic textual similarity (STS) evaluation at SemEval-2022 Task 8: “Multilingual News Article Similarity”. The semantic information used is obtained by using different semantic models ranging from the extraction of key terms and named entities to the document classification and obtaining similarity from automatic summarization of documents. All these semantic information’s are then used as features to feed a supervised system in order to evaluate the degree of similarity of a pair of documents. We obtained a Pearson correlation score of 0.706 compared to the best score of 0.818 from teams that participated in this task.
Nous nous intéressons dans cet article à l’extraction automatique de relations sémantiques d’hyperonymie et d’hyponymie à partir d’un corpus de spécialités métier. Le corpus regroupe des ouvrages et articles en français d’expertise juridique et a été partiellement annoté en termes-clés par des experts. Nous prétraitons ces annotations afin de pouvoir les retrouver dans ce corpus et obtenir un concept général pour extraire les relations entre ces termes. Nous décrivons une étude expérimentale qui compare plusieurs méthodes de classification appliquées sur des vecteurs de relations construits à partir d’un modèle Word2Vec. Nous comparons les résultats obtenus grâce à un jeu de données construit à partir de relations d’hyperonymie tirées d’un réseau lexico-sémantique français que nous inversons pour obtenir les relations d’hyponymie. Nos résultats montrent que nous obtenons une classification pouvant atteindre un taux d’exactitude de 92 %.
Cet article présente notre participation à l’édition 2021 du DÉfi Fouille de Textes (DEFT) et plus précisément à la première tâche liée à l’identification du profil clinique du patient. Cette tâche consiste à sélectionner, pour un document décrivant l’état d’un patient, les différents types de maladies rencontrées correspondant aux entrées génériques des chapitres du MeSH (Medical Subject Headings). Dans notre travail, nous nous sommes intéressés aux questions suivantes : (1) Comment améliorer les représentations vectorielles de documents, voire de classes ? (2) Comment apprendre des seuils de validation de classes ? Et (3) Une approche combinant apprentissage supervisé et similarité sémantique peut-elle apporter une meilleure performance à un système de classification multi-labels ?
Nous nous intéressons dans cet article à l’extraction de thèmes (topics) à partir de commentaires textuels provenant des demandes de support de l’éditeur de logiciel Berger-Levrault. Le corpus de demandes analysé est celui d’un outil de gestion de la relation citoyen. Ce corpus n’est pas formaté et est peu structuré avec plusieurs locuteurs qui interviennent (le citoyen et un ou plusieurs techniciens support). Nous décrivons une étude expérimentale qui repose sur l’utilisation de deux systèmes. Le premier système applique une LDA (Allocation Dirichlet Latente), tandis que le second combine l’application d’une LDA avec l’algorithme k-Moyennes (k-Means). Nous comparons nos résultats avec un échantillon de ce corpus, annoté par un expert du domaine. Nos résultats montrent que nous obtenons une classification de meilleure qualité comparable avec celle effectuée manuellement par un expert en utilisant une combinaison LDA/k-Moyennes.