@inproceedings{ben-othmane-zribi-2018-word2vec,
title = "{W}ord2{V}ec vs {LSA} pour la d{\'e}tection des erreurs orthographiques produisant un d{\'e}r{\`e}glement s{\'e}mantique en arabe ({W}ord2{V}ec vs {LSA} for detecting semantic errors in {A}rabic language)",
author = "Ben Othmane Zribi, Chiraz",
editor = "S{\'e}billot, Pascale and
Claveau, Vincent",
booktitle = "Actes de la Conf{\'e}rence TALN. Volume 1 - Articles longs, articles courts de TALN",
month = "5",
year = "2018",
address = "Rennes, France",
publisher = "ATALA",
url = "https://aclanthology.org/2018.jeptalnrecital-court.11",
pages = "293--302",
abstract = "Les mots en arabe sont tr{\`e}s proches lexicalement les uns des autres. La probabilit{\'e} de tomber sur un mot correct en commettant une erreur typographique est plus importante que pour le fran{\c{c}}ais ou pour l{'}anglais. Nous nous int{\'e}ressons dans cet article {\`a} d{\'e}tecter les erreurs orthographiques plus pr{\'e}cis{\'e}ment, celles g{\'e}n{\'e}rant des mots lexicalement corrects mais causant un d{\'e}r{\`e}glement s{\'e}mantique au niveau de la phrase. Nous d{\'e}crivons et comparons deux m{\'e}thodes se basant sur la repr{\'e}sentation vectorielle du sens des mots. La premi{\`e}re m{\'e}thode utilise l{'}analyse s{\'e}mantique latente (LSA). La seconde s{'}appuie sur le mod{\`e}le Word2Vec et plus particuli{\`e}rement l{'}architecture Skip-Gram. Les exp{\'e}rimentations ont montr{\'e} que Skip-Gram surpasse LSA.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="ben-othmane-zribi-2018-word2vec">
<titleInfo>
<title>Word2Vec vs LSA pour la détection des erreurs orthographiques produisant un dérèglement sémantique en arabe (Word2Vec vs LSA for detecting semantic errors in Arabic language)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Chiraz</namePart>
<namePart type="family">Ben Othmane Zribi</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2018-05</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN</title>
</titleInfo>
<name type="personal">
<namePart type="given">Pascale</namePart>
<namePart type="family">Sébillot</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Vincent</namePart>
<namePart type="family">Claveau</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Rennes, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les mots en arabe sont très proches lexicalement les uns des autres. La probabilité de tomber sur un mot correct en commettant une erreur typographique est plus importante que pour le français ou pour l’anglais. Nous nous intéressons dans cet article à détecter les erreurs orthographiques plus précisément, celles générant des mots lexicalement corrects mais causant un dérèglement sémantique au niveau de la phrase. Nous décrivons et comparons deux méthodes se basant sur la représentation vectorielle du sens des mots. La première méthode utilise l’analyse sémantique latente (LSA). La seconde s’appuie sur le modèle Word2Vec et plus particulièrement l’architecture Skip-Gram. Les expérimentations ont montré que Skip-Gram surpasse LSA.</abstract>
<identifier type="citekey">ben-othmane-zribi-2018-word2vec</identifier>
<location>
<url>https://aclanthology.org/2018.jeptalnrecital-court.11</url>
</location>
<part>
<date>2018-5</date>
<extent unit="page">
<start>293</start>
<end>302</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Word2Vec vs LSA pour la détection des erreurs orthographiques produisant un dérèglement sémantique en arabe (Word2Vec vs LSA for detecting semantic errors in Arabic language)
%A Ben Othmane Zribi, Chiraz
%Y Sébillot, Pascale
%Y Claveau, Vincent
%S Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
%D 2018
%8 May
%I ATALA
%C Rennes, France
%G French
%F ben-othmane-zribi-2018-word2vec
%X Les mots en arabe sont très proches lexicalement les uns des autres. La probabilité de tomber sur un mot correct en commettant une erreur typographique est plus importante que pour le français ou pour l’anglais. Nous nous intéressons dans cet article à détecter les erreurs orthographiques plus précisément, celles générant des mots lexicalement corrects mais causant un dérèglement sémantique au niveau de la phrase. Nous décrivons et comparons deux méthodes se basant sur la représentation vectorielle du sens des mots. La première méthode utilise l’analyse sémantique latente (LSA). La seconde s’appuie sur le modèle Word2Vec et plus particulièrement l’architecture Skip-Gram. Les expérimentations ont montré que Skip-Gram surpasse LSA.
%U https://aclanthology.org/2018.jeptalnrecital-court.11
%P 293-302
Markdown (Informal)
[Word2Vec vs LSA pour la détection des erreurs orthographiques produisant un dérèglement sémantique en arabe (Word2Vec vs LSA for detecting semantic errors in Arabic language)](https://aclanthology.org/2018.jeptalnrecital-court.11) (Ben Othmane Zribi, JEP/TALN/RECITAL 2018)
ACL