Apport de l’information temporelle des contextes pour la représentation vectorielle continue des mots

Killian Janod, Mohamed Morchid, Richard Dufour, Georges Linares


Abstract
Les représentations vectorielles continues des mots sont en plein essor et ont déjà été appliquées avec succès à de nombreuses tâches en traitement automatique de la langue (TAL). Dans cet article, nous proposons d’intégrer l’information temporelle issue du contexte des mots au sein des architectures fondées sur les sacs-de-mots continus (continuous bag-of-words ou CBOW) ou sur les Skip-Grams. Ces approches sont manipulées au travers d’un réseau de neurones, l’architecture CBOW cherchant alors à prédire un mot sachant son contexte, alors que l’architecture Skip-Gram prédit un contexte sachant un mot. Cependant, ces modèles, au travers du réseau de neurones, s’appuient sur des représentations en sac-de-mots et ne tiennent pas compte, explicitement, de l’ordre des mots. En conséquence, chaque mot a potentiellement la même influence dans le réseau de neurones. Nous proposons alors une méthode originale qui intègre l’information temporelle des contextes des mots en utilisant leur position relative. Cette méthode s’inspire des modèles contextuels continus. L’information temporelle est traitée comme coefficient de pondération, en entrée du réseau de neurones par le CBOW et dans la couche de sortie par le Skip-Gram. Les premières expériences ont été réalisées en utilisant un corpus de test mesurant la qualité de la relation sémantique-syntactique des mots. Les résultats préliminaires obtenus montrent l’apport du contexte des mots, avec des gains de 7 et 7,7 points respectivement avec l’architecture Skip-Gram et l’architecture CBOW.
Anthology ID:
2015.jeptalnrecital-court.42
Volume:
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
June
Year:
2015
Address:
Caen, France
Editors:
Jean-Marc Lecarpentier, Nadine Lucas
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
284–290
Language:
URL:
https://aclanthology.org/2015.jeptalnrecital-court.42
DOI:
Bibkey:
Cite (ACL):
Killian Janod, Mohamed Morchid, Richard Dufour, and Georges Linares. 2015. Apport de l’information temporelle des contextes pour la représentation vectorielle continue des mots. In Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 284–290, Caen, France. ATALA.
Cite (Informal):
Apport de l’information temporelle des contextes pour la représentation vectorielle continue des mots (Janod et al., JEP/TALN/RECITAL 2015)
Copy Citation:
PDF:
https://aclanthology.org/2015.jeptalnrecital-court.42.pdf