Matthieu Vernier


2011

pdf bib
Identifier la cible d’un passage d’opinion dans un corpus multithématique (Identifying the target of an opinion transition in a thematic corpus)
Matthieu Vernier | Laura Monceaux | Béatrice Daille
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

L’identification de la cible d’une d’opinion fait l’objet d’une attention récente en fouille d’opinion. Les méthodes existantes ont été testées sur des corpus monothématiques en anglais. Elles permettent principalement de traiter les cas où la cible se situe dans la même phrase que l’opinion. Dans cet article, nous abordons cette problématique pour le français dans un corpus multithématique et nous présentons une nouvelle méthode pour identifier la cible d’une opinion apparaissant hors du contexte phrastique. L’évaluation de la méthode montre une amélioration des résultats par rapport à l’existant.

2010

pdf bib
Un étiqueteur de rôles grammaticaux libre pour le français intégré à Apache UIMA
Charles Dejean | Manoel Fortun | Clotilde Massot | Vincent Pottier | Fabien Poulard | Matthieu Vernier
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

L’étiquetage des rôles grammaticaux est une tâche de pré-traitement récurrente. Pour le français, deux outils sont majoritairement utilisés : TreeTagger et Brill. Nous proposons une démarche, ne nécessitant aucune ressource, pour la création d’un modèle de Markov caché (HMM) pour palier les problèmes de ces outils, et de licences notamment. Nous distribuons librement toutes les ressources liées à ce travail.

pdf bib
Learning Subjectivity Phrases missing from Resources through a Large Set of Semantic Tests
Matthieu Vernier | Laura Monceaux | Béatrice Daille
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)

In recent years, blogs and social networks have particularly boosted interests for opinion mining research. In order to satisfy real-scale applicative needs, a main task is to create or to enhance lexical and semantic resources on evaluative language. Classical resources of the area are mostly built for english, they contain simple opinion word markers and are far to cover the lexical richness of this linguistic phenomenon. In particular, infrequent subjective words, idiomatic expressions, and cultural stereotypes are missing from resources. We propose a new method, applied on french, to enhance automatically an opinion word lexicon. This learning method relies on linguistic uses of internet users and on semantic tests to infer the degree of subjectivity of many new adjectives, nouns, verbs, noun phrases, verbal phrases which are usually forgotten by other resources. The final appraisal lexicon contains 3,456 entries. We evaluate the lexicon enhancement with and without textual context.

2009

pdf bib
Catégorisation sémantico-discursive des évaluations exprimées dans la blogosphère
Matthieu Vernier | Laura Monceaux | Béatrice Daille | Estelle Dubreil
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les blogs constituent un support d’observations idéal pour des applications liées à la fouille d’opinion. Toutefois, ils imposent de nouvelles problématiques et de nouveaux défis au regard des méthodes traditionnelles du domaine. De ce fait, nous proposons une méthode automatique pour la détection et la catégorisation des évaluations localement exprimées dans un corpus de blogs multi-domaine. Celle-ci rend compte des spécificités du langage évaluatif décrites dans deux théories linguistiques. L’outil développé au sein de la plateforme UIMA vise d’une part à construire automatiquement une grammaire du langage évaluatif, et d’autre part à utiliser cette grammaire pour la détection et la catégorisation des passages évaluatifs d’un texte. La catégorisation traite en particulier l’aspect axiologique de l’évaluation, sa configuration d’énonciation et sa modalité dans le discours.

pdf bib
Apache UIMA pour le Traitement Automatique des Langues
Nicolas Hernandez | Fabien Poulard | Stergos Afantenos | Matthieu Vernier | Jérôme Rocheteau
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

L’objectif de la démonstration est d’une part de faire un retour d’expérience sur la solution logicielle Apache UIMA comme infrastructure de développement d’applications distribuées de TAL, et d’autre part de présenter les développements réalisés par l’équipe TALN du LINA pour permettre à la communauté de s’approprier ce « framework ».