@inproceedings{buscaldi-etal-2018-modeles,
title = "Mod{\`e}les en Caract{\`e}res pour la D{\'e}tection de Polarit{\'e} dans les Tweets (Character-level Models for Polarity Detection in Tweets )",
author = {Buscaldi, Davide and
Le Roux, Joseph and
Lejeune, Ga{\"e}l},
editor = "S{\'e}billot, Pascale and
Claveau, Vincent",
booktitle = "Actes de la Conf{\'e}rence TALN. Volume 2 - D{\'e}monstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT",
month = "5",
year = "2018",
address = "Rennes, France",
publisher = "ATALA",
url = "https://aclanthology.org/2018.jeptalnrecital-deft.4",
pages = "249--258",
abstract = "Dans cet article, nous pr{\'e}sentons notre contribution au D{\'e}fi Fouille de Textes 2018 au travers de trois m{\'e}thodes originales pour la classification th{\'e}matique et la d{\'e}tection de polarit{\'e} dans des tweets en fran{\c{c}}ais. Nous y avons ajout{\'e} un syst{\`e}me de vote. Notre premi{\`e}re m{\'e}thode est fond{\'e}e sur des lexiques (mots et emojis), les n-grammes de caract{\`e}res et un classificateur {\`a} vaste marge (ou SVM). tandis que les deux autres sont des m{\'e}thodes endog{\`e}nes fond{\'e}es sur l{'}extraction de caract{\'e}ristiques au grain caract{\`e}res : un mod{\`e}le {\`a} m{\'e}moire {\`a} court-terme persistante (ou BiLSTM pour Bidirectionnal Long Short-Term Memory) et perceptron multi-couche d{'}une part et un mod{\`e}le de s{\'e}quences de caract{\`e}res ferm{\'e}es fr{\'e}quentes et classificateur SVM d{'}autre part. Le BiLSTM a produit de loin les meilleurs r{\'e}sultats puisqu{'}il a obtenu la premi{\`e}re place sur la t{\^a}che 1, classification binaire de tweets selon qu{'}ils traitent ou non des transports, et la troisi{\`e}me place sur la t{\^a}che 2, classification de la polarit{\'e} en 4 classes. Ce r{\'e}sultat est d{'}autant plus int{\'e}ressant que la m{\'e}thode propos{\'e}e est faiblement param{\'e}trique, totalement endog{\`e}ne et qu{'}elle n{'}implique aucun pr{\'e}-traitement.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="buscaldi-etal-2018-modeles">
<titleInfo>
<title>Modèles en Caractères pour la Détection de Polarité dans les Tweets (Character-level Models for Polarity Detection in Tweets )</title>
</titleInfo>
<name type="personal">
<namePart type="given">Davide</namePart>
<namePart type="family">Buscaldi</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Joseph</namePart>
<namePart type="family">Le Roux</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Gaël</namePart>
<namePart type="family">Lejeune</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2018-05</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT</title>
</titleInfo>
<name type="personal">
<namePart type="given">Pascale</namePart>
<namePart type="family">Sébillot</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Vincent</namePart>
<namePart type="family">Claveau</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Rennes, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Dans cet article, nous présentons notre contribution au Défi Fouille de Textes 2018 au travers de trois méthodes originales pour la classification thématique et la détection de polarité dans des tweets en français. Nous y avons ajouté un système de vote. Notre première méthode est fondée sur des lexiques (mots et emojis), les n-grammes de caractères et un classificateur à vaste marge (ou SVM). tandis que les deux autres sont des méthodes endogènes fondées sur l’extraction de caractéristiques au grain caractères : un modèle à mémoire à court-terme persistante (ou BiLSTM pour Bidirectionnal Long Short-Term Memory) et perceptron multi-couche d’une part et un modèle de séquences de caractères fermées fréquentes et classificateur SVM d’autre part. Le BiLSTM a produit de loin les meilleurs résultats puisqu’il a obtenu la première place sur la tâche 1, classification binaire de tweets selon qu’ils traitent ou non des transports, et la troisième place sur la tâche 2, classification de la polarité en 4 classes. Ce résultat est d’autant plus intéressant que la méthode proposée est faiblement paramétrique, totalement endogène et qu’elle n’implique aucun pré-traitement.</abstract>
<identifier type="citekey">buscaldi-etal-2018-modeles</identifier>
<location>
<url>https://aclanthology.org/2018.jeptalnrecital-deft.4</url>
</location>
<part>
<date>2018-5</date>
<extent unit="page">
<start>249</start>
<end>258</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Modèles en Caractères pour la Détection de Polarité dans les Tweets (Character-level Models for Polarity Detection in Tweets )
%A Buscaldi, Davide
%A Le Roux, Joseph
%A Lejeune, Gaël
%Y Sébillot, Pascale
%Y Claveau, Vincent
%S Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
%D 2018
%8 May
%I ATALA
%C Rennes, France
%G French
%F buscaldi-etal-2018-modeles
%X Dans cet article, nous présentons notre contribution au Défi Fouille de Textes 2018 au travers de trois méthodes originales pour la classification thématique et la détection de polarité dans des tweets en français. Nous y avons ajouté un système de vote. Notre première méthode est fondée sur des lexiques (mots et emojis), les n-grammes de caractères et un classificateur à vaste marge (ou SVM). tandis que les deux autres sont des méthodes endogènes fondées sur l’extraction de caractéristiques au grain caractères : un modèle à mémoire à court-terme persistante (ou BiLSTM pour Bidirectionnal Long Short-Term Memory) et perceptron multi-couche d’une part et un modèle de séquences de caractères fermées fréquentes et classificateur SVM d’autre part. Le BiLSTM a produit de loin les meilleurs résultats puisqu’il a obtenu la première place sur la tâche 1, classification binaire de tweets selon qu’ils traitent ou non des transports, et la troisième place sur la tâche 2, classification de la polarité en 4 classes. Ce résultat est d’autant plus intéressant que la méthode proposée est faiblement paramétrique, totalement endogène et qu’elle n’implique aucun pré-traitement.
%U https://aclanthology.org/2018.jeptalnrecital-deft.4
%P 249-258
Markdown (Informal)
[Modèles en Caractères pour la Détection de Polarité dans les Tweets (Character-level Models for Polarity Detection in Tweets )](https://aclanthology.org/2018.jeptalnrecital-deft.4) (Buscaldi et al., JEP/TALN/RECITAL 2018)
ACL