Baptiste Chardon


2016

This paper describes the CASOAR corpus, the first manually annotated corpus that explores the impact of discourse structure on sentiment analysis with a study of movie reviews in French and in English as well as letters to the editor in French. While annotating opinions at the expression, the sentence or the document level is a well-established task and relatively straightforward, discourse annotation remains difficult, especially for non-experts. Therefore, combining both annotations poses several methodological problems that we address here. We propose a multi-layered annotation scheme that includes: the complete discourse structure according to the Segmented Discourse Representation Theory, the opinion orientation of elementary discourse units and opinion expressions, and their associated features. We detail each layer, explore the interactions between them and discuss our results. In particular, we examine the correlation between discourse and semantic category of opinion expressions, the impact of discourse relations on both subjectivity and polarity analysis and the impact of discourse on the determination of the overall opinion of a document. Our results demonstrate that discourse is an important cue for sentiment analysis, at least for the corpus genres we have studied.

2014

2013

2012

2011

2010

Cet article décrit un processus d’annotation manuelle de textes d’opinion, basé sur un schéma fin d’annotation indépendant de la langue et du corpus. Ensuite, à partir d’une partie de ce schéma, une méthode de construction automatique d’un lexique d’opinion à partir d’un analyseur syntaxique et d’une ressource linguistique est décrite. Cette méthode consiste à construire un arbre de décision basé sur les classes de concepts de la ressource utilisée. Dans un premier temps, nous avons étudié la couverture du lexique d’opinion obtenu par comparaison avec l’annotation manuelle effectuée sur un premier corpus de critiques de restaurants. La généricité de ce lexique a été mesurée en le comparant avec un second lexique, généré à partir d’un corpus de commentaires de films. Dans un second temps, nous avons évalué l’utilisabilité du lexique au travers d’une tâche extrinsèque, la reconnaissance de la polarité de commentaires d’internautes.