De l’interprétabilité des dimensions à l’interprétabilité du vecteur : parcimonie et stabilité

Simon Guillot; Thibault Prouteau; Nicolas Dugué

De l’interprétabilité des dimensions à l’interprétabilité du vecteur : parcimonie et stabilité

Simon Guillot, Thibault Prouteau, Nicolas Dugue

Abstract

Les modèles d’apprentissage de plongements parcimonieux (SPINE, SINr) ont pour objectif de produire un espace dont les dimensions peuvent être interprétées. Ces modèles visent des cas d’application critiques du traitement de la langue naturelle (usages médicaux ou judiciaires) et une utilisation des représentations dans le cadre des humanités numériques. Nous proposons de considérer non plus seulement l’interprétabilité des dimensions de l’espace de description, mais celle des vecteurs de mots en eux-mêmes. Pour cela, nous introduisons un cadre d’évaluation incluant le critère de stabilité, et redéfinissant celui de la parcimonie en accord avec les théories psycholinguistiques. Tout d’abord, les évaluations en stabilité indiquent une faible variabilité sur les modèles considérés. Ensuite, pour redéfinir le critère de parcimonie, nous proposons une méthode d’éparsification des vecteurs de plongements en gardant les composantes les plus fortement activées de chaque vecteur. Il apparaît que pour les deux modèles SPINE et SINr, de bonnes performances en similarité sont permises par des vecteurs avec un très faible nombre de dimensions activées. Ces résultats permettent d’envisager l’interprétabilité de représentations éparses sans remettre en cause les performances.

Anthology ID:: 2023.jeptalnrecital-international.10
Volume:: Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale
Month:: 6
Year:: 2023
Address:: Paris, France
Editors:: Christophe Servan, Anne Vilnat
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA
Note:
Pages:: 83–91
Language:: French
URL:: https://aclanthology.org/2023.jeptalnrecital-international.10
DOI:
Bibkey:
Cite (ACL):: Simon Guillot, Thibault Prouteau, and Nicolas Dugue. 2023. De l’interprétabilité des dimensions à l’interprétabilité du vecteur : parcimonie et stabilité. In Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale, pages 83–91, Paris, France. ATALA.
Cite (Informal):: De l’interprétabilité des dimensions à l’interprétabilité du vecteur : parcimonie et stabilité (Guillot et al., JEP/TALN/RECITAL 2023)
Copy Citation:
PDF:: https://aclanthology.org/2023.jeptalnrecital-international.10.pdf

PDF Cite Search