@inproceedings{pierrejean-tanguy-2018-etude,
title = "Etude de la reproductibilit{\'e} des word embeddings : rep{\'e}rage des zones stables et instables dans le lexique (Reproducibility of word embeddings : identifying stable and unstable zones in the semantic space)",
author = "Pierrejean, B{\'e}n{\'e}dicte and
Tanguy, Ludovic",
editor = "S{\'e}billot, Pascale and
Claveau, Vincent",
booktitle = "Actes de la Conf{\'e}rence TALN. Volume 1 - Articles longs, articles courts de TALN",
month = "5",
year = "2018",
address = "Rennes, France",
publisher = "ATALA",
url = "https://aclanthology.org/2018.jeptalnrecital-long.3/",
pages = "33--46",
language = "fra",
abstract = "Les mod{\`e}les vectoriels de s{\'e}mantique distributionnelle (ou word embeddings), notamment ceux produits par les m{\'e}thodes neuronales, posent des questions de reproductibilit{\'e} et donnent des repr{\'e}sentations diff{\'e}rentes {\`a} chaque utilisation, m{\^e}me sans modifier leurs param{\`e}tres. Nous pr{\'e}sentons ici un ensemble d`exp{\'e}rimentations permettant de mesurer cette instabilit{\'e}, {\`a} la fois globalement et localement. Globalement, nous avons mesur{\'e} le taux de variation du voisinage des mots sur trois corpus diff{\'e}rents, qui est estim{\'e} autour de 17{\%} pour les 25 plus proches voisins d`un mot. Localement, nous avons identifi{\'e} et caract{\'e}ris{\'e} certaines zones de l`espace s{\'e}mantique qui montrent une relative stabilit{\'e}, ainsi que des cas de grande instabilit{\'e}."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="pierrejean-tanguy-2018-etude">
<titleInfo>
<title>Etude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique (Reproducibility of word embeddings : identifying stable and unstable zones in the semantic space)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Bénédicte</namePart>
<namePart type="family">Pierrejean</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Ludovic</namePart>
<namePart type="family">Tanguy</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2018-05</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN</title>
</titleInfo>
<name type="personal">
<namePart type="given">Pascale</namePart>
<namePart type="family">Sébillot</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Vincent</namePart>
<namePart type="family">Claveau</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Rennes, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les modèles vectoriels de sémantique distributionnelle (ou word embeddings), notamment ceux produits par les méthodes neuronales, posent des questions de reproductibilité et donnent des représentations différentes à chaque utilisation, même sans modifier leurs paramètres. Nous présentons ici un ensemble d‘expérimentations permettant de mesurer cette instabilité, à la fois globalement et localement. Globalement, nous avons mesuré le taux de variation du voisinage des mots sur trois corpus différents, qui est estimé autour de 17% pour les 25 plus proches voisins d‘un mot. Localement, nous avons identifié et caractérisé certaines zones de l‘espace sémantique qui montrent une relative stabilité, ainsi que des cas de grande instabilité.</abstract>
<identifier type="citekey">pierrejean-tanguy-2018-etude</identifier>
<location>
<url>https://aclanthology.org/2018.jeptalnrecital-long.3/</url>
</location>
<part>
<date>2018-5</date>
<extent unit="page">
<start>33</start>
<end>46</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Etude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique (Reproducibility of word embeddings : identifying stable and unstable zones in the semantic space)
%A Pierrejean, Bénédicte
%A Tanguy, Ludovic
%Y Sébillot, Pascale
%Y Claveau, Vincent
%S Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
%D 2018
%8 May
%I ATALA
%C Rennes, France
%G fra
%F pierrejean-tanguy-2018-etude
%X Les modèles vectoriels de sémantique distributionnelle (ou word embeddings), notamment ceux produits par les méthodes neuronales, posent des questions de reproductibilité et donnent des représentations différentes à chaque utilisation, même sans modifier leurs paramètres. Nous présentons ici un ensemble d‘expérimentations permettant de mesurer cette instabilité, à la fois globalement et localement. Globalement, nous avons mesuré le taux de variation du voisinage des mots sur trois corpus différents, qui est estimé autour de 17% pour les 25 plus proches voisins d‘un mot. Localement, nous avons identifié et caractérisé certaines zones de l‘espace sémantique qui montrent une relative stabilité, ainsi que des cas de grande instabilité.
%U https://aclanthology.org/2018.jeptalnrecital-long.3/
%P 33-46
Markdown (Informal)
[Etude de la reproductibilité des word embeddings : repérage des zones stables et instables dans le lexique (Reproducibility of word embeddings : identifying stable and unstable zones in the semantic space)](https://aclanthology.org/2018.jeptalnrecital-long.3/) (Pierrejean & Tanguy, JEP/TALN/RECITAL 2018)
ACL