pdf
bib
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Pascale Sébillot
|
Vincent Claveau
pdf
bib
abs
Construction de patrons lexico-syntaxiques d’extraction pour l’acquisition de connaissances à partir du web (Relation pattern extraction and information extraction from the web)
Chloé Monnin
|
Olivier Hamon
Cet article présente une méthode permettant de collecter sur le web des informations complémentaires à une information prédéfinie, afin de remplir une base de connaissances. Notre méthode utilise des patrons lexico-syntaxiques, servant à la fois de requêtes de recherche et de patrons d’extraction permettant l’analyse de documents non structurés. Pour ce faire, il nous a fallu définir au préalable les critères pertinents issus des analyses dans l’objectif de faciliter la découverte de nouvelles valeurs.
pdf
bib
abs
Analysis of Inferences in Chinese for Opinion Mining
Liyun Yan
Analysis of Inferences in Chinese for Opinion Mining Opinion mining is an essential activity for economic watch, made easier by social networks and ad hoc forums. The analysis generally relies on lexicon of sentiments. Nevertheless, some opinions are expressed through inferences. In this paper, we propose a classification of inferences used in Chinese in tourist comments, for an opinion mining task, based on three levels of analysis (semantic realization, modality of realization and production mode). We proved the interest to analyze the distinct types of inferences to identify the polarity of opinions expressed in corpora. We also present some results based on word embeddings.
pdf
bib
abs
Analyse des noms agentifs dans les espaces vectoriels distributionnels (Analysis of agent nouns in vector space models)
Marine Wauquier
Notre étude s’inscrit dans le cadre d’une thèse ayant pour but d’exploiter les modèles distributionnels pour décrire sémantiquement des classes de mots définies selon des critères morphologiques. Nous utilisons des indices morphologiques et formels fournis par une base lexicale pour cibler les noms agentifs déverbaux construits par suffixation en -eur. Nous montrons qu’il est possible de constituer un représentant prototypique de la classe sémantique des noms agentifs en -eur dans les modèles distributionnels. L’étude de ce représentant met en évidence que l’information sémantique véhiculée par le suffixe varie en fonction du corpus d’étude et du degré de lexicalisation des dérivés.
pdf
bib
abs
Analyse formelle d’exigences en langue naturelle pour la conception de systèmes cyber-physiques (Formal analysis of natural language requirements for the design of cyber-physical systems )
Aurélien Lamercerie
Cet article explore la construction de représentations formelles d’énoncés en langue naturelle. Le passage d’un langage naturel à une représentation logique est réalisé avec un formalisme grammatical, reliant l’analyse syntaxique de l’énoncé à une représentation sémantique. Nous ciblons l’aspect comportemental des cahiers des charges pour les systèmes cyber-physiques, c’est-à-dire tout type de systèmes dans lesquels des composants logiciels interagissent étroitement avec un environnement physique. Dans ce cadre, l’enjeu serait d’apporter une aide au concepteur. Il s’agit de permettre de simuler et vérifier, par des méthodes automatiques ou assistées, des cahiers des charges “systèmes” exprimés en langue naturelle. Cet article présente des solutions existantes qui pourraient être combinées en vue de la résolution de la problématique exposée.
pdf
bib
abs
Résumé automatique guidé de textes: État de l’art et perspectives (Guided Summarization : State-of-the-art and perspectives )
Salima Lamsiyah
|
Said Ouatik El Alaoui
|
Bernard Espinasse
Les systèmes de résumé automatique de textes (SRAT) consistent à produire une représentation condensée et pertinente à partir d’un ou de plusieurs documents textuels. La majorité des SRAT sont basés sur des approches extractives. La tendance actuelle consiste à s’orienter vers les approches abstractives. Dans ce contexte, le résumé guidé défini par la campagne d’évaluation internationale TAC (Text Analysis Conference) en 2010, vise à encourager la recherche sur ce type d’approche, en se basant sur des techniques d’analyse en profondeur de textes. Dans ce papier, nous nous penchons sur le résumé automatique guidé de textes. Dans un premier temps, nous définissons les différentes caractéristiques et contraintes liées à cette tâche. Ensuite, nous dressons un état de l’art des principaux systèmes existants en mettant l’accent sur les travaux les plus récents, et en les classifiant selon les approches adoptées, les techniques utilisées, et leurs évaluations sur des corpus de références. Enfin, nous proposons les grandes étapes d’une méthode spécifique devant permettre le développement d’un nouveau type de systèmes de résumé guidé.
pdf
bib
abs
Identification de descripteurs pour la caractérisation de registres (Feature identification for register characterization)
Jade Mekki
|
Delphine Battistelli
|
Gwénolé Lecorvé
|
Nicolas Béchet
L’article présente une étude des descripteurs linguistiques pour la caractérisation d’un texte selon son registre de langue (familier, courant, soutenu). Cette étude a pour but de poser un premier jalon pour des tâches futures sur le sujet (classification, extraction de motifs discriminants). À partir d’un état de l’art mené sur la notion de registre dans la littérature linguistique et sociolinguistique, nous avons identifié une liste de 72 descripteurs pertinents. Dans cet article, nous présentons les 30 premiers que nous avons pu valider sur un corpus de textes français de registres distincts.
pdf
bib
abs
Construction d’un corpus multilingue annoté en relations de traduction (Construction of a multilingual corpus annotated with translation relations )
Yuming Zhai
Les relations de traduction, qui distinguent la traduction littérale d’autres procédés, constituent un sujet d’étude important pour les traducteurs humains (Chuquet & Paillard, 1989). Or les traitements automatiques fondés sur des relations entre langues, tels que la traduction automatique ou la méthode de génération de paraphrases par équivalence de traduction, ne les ont pas exploitées explicitement jusqu’à présent. Dans ce travail, nous présentons une catégorisation des relations de traduction et nous les annotons dans un corpus parallèle multilingue (anglais, français, chinois) de présentations orales, les TED Talks. Notre objectif à plus long terme sera d’en faire la détection de manière automatique afin de pouvoir les intégrer comme caractéristiques importantes pour la recherche de segments monolingues en relation d’équivalence (paraphrases) ou d’implication. Le corpus annoté résultant de notre travail sera mis à disposition de la communauté.
pdf
bib
abs
Automatic image annotation : the case of deforestation
Duy Huynh
|
Nathalie Neptune
Automatic image annotation : the case of deforestation. This paper aims to present the state of the art of the methods that are used for automatic annotation of earth observation image for deforestation detection. We are interested in the various challenges that the field covers and we present the state of the art methods and the future research that we are considering.
pdf
bib
abs
Détection d’influenceurs dans des médias sociaux (Influencer detection in social medias)
Kévin Deturck
Les influenceurs ont la capacité d’avoir un impact sur d’autres individus lorsqu’ils interagissent avec eux. Détecter les influenceurs permet d’identifier les quelques individus à cibler pour toucher largement un réseau. Il est possible d’analyser les interactions dans un média social du point de vue de leur structure ou de leur contenu. Dans nos travaux de thèse, nous abordons ces deux aspects. Nous présentons d’abord une évaluation de différentes mesures de centralité sur la structure d’interactions extraites de Twitter puis nous analysons l’impact de la taille du graphe de suivi sur la performance de mesures de centralité. Nous abordons l’aspect linguistique pour identifier le changement d’avis comme un effet de l’influence depuis les messages d’un forum.
pdf
bib
abs
Extraction d’interactions entre aliment et médicament : Etat de l’art et premiers résultats (Extraction of food-drug interactions : State of the art and first results)
Tsanta Randriatsitohaina
Dans cet article, nous nous intéressons à l’extraction des interactions entre médicaments et aliments, une tâche qui s’apparente à l’extraction de relations entre termes dans les textes de spécialité. De nombreuses approches ont été proposées pour extraire des relations à partir de textes : des patrons lexico-syntaxiques, de la classification supervisée, et plus récemment de l’apprentissage profond. A partir de cet état de l’art, nous présentons une méthode basée sur un apprentissage supervisé et les résultats d’une première série d’expériences. Malgré le déséquilibre des classes, les résultats sont encourageants. Nous avons ainsi pu identifier les classifieurs les plus performants suivant les étapes. Nous avons également observé l’impact important des catégories sémantiques des termes comme descripteurs.
pdf
bib
abs
Classification par paires de mention pour la résolution des coréférences en français parlé interactif (Mention-pair classification for corefence resolution on spontaneous spoken French)
Maëlle Brassier
|
Alexis Puret
|
Augustin Voisin-Marras
|
Loïc Grobol
Cet article présente et analyse les premiers résultats obtenus par notre laboratoire pour la construction d’un modèle de résolution des coréférences en français à l’aide de techniques de classifications parmi lesquelles les arbres de décision et les séparateurs à vaste marge. Ce système a été entraîné sur le corpus ANCOR et s’inspire de travaux antérieurs réalisés au laboratoire LATTICE (système CROC). Nous présentons les expérimentations que nous avons menées pour améliorer le système en passant par des classifieurs spécifiques à chaque type de situation interactive, puis chaque type de relation de coréférence.
pdf
bib
abs
Approche lexicale de la simplification automatique de textes médicaux (Lexical approach for the automatic simplification of medical texts)
Remi Cardon
Notre travail traite de la simplification automatique de textes. Ce type d’application vise à rendre des contenus difficiles à comprendre plus lisibles. À partir de trois corpus comparables du domaine médical, d’un lexique existant et d’une terminologie du domaine, nous procédons à des analyses et à des modifications en vue de la simplification lexicale de textes médicaux. L’alignement manuel des phrases provenant de ces corpus comparables fournit des données de référence et permet d’analyser les procédés de simplification mis en place. La substitution lexicale avec la ressource existante permet d’effectuer de premiers tests de simplification lexicale et indique que des ressources plus spécifiques sont nécessaires pour traiter les textes médicaux. L’évaluation des substitutions est effectuée avec trois critères : grammaticalité, simplification et sémantique. Elle indique que la grammaticalité est plutôt bien sauvegardée, alors que la sémantique et la simplicité sont plus difficiles à gérer lors des substitutions avec ce type de méthodes.
pdf
bib
abs
Classification multi-label à grande dimension pour la détection de concepts médicaux (Large multi-label classification for medical concepts detection)
Josiane Mothe
|
Nomena Ny Hoavy
|
Mamitiana-Ignace Randrianarivony
Dans ce papier, nous présentons une méthode pour associer de façon automatique des concepts à des images. Nous nous focalisons plus particulièrement sur des images médicales à annoter avec des concepts UMLS. Nous avons développé deux modèles de transfert d’apprentissage à partir des réseaux CNN VGG19 et ResNet50 . Nous avons utilisé des modèles avec des techniques simples et que nous avons optimisés pour l’apprentissage. Les résultats que nous avons obtenus en utilisant les données de la tâche ImageCLEF 2017 sont encourageants et comparables à ceux des autres participants.