pdf
bib
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 3 : RECITAL
Laurence Danlos
|
Thierry Hamon
pdf
bib
abs
Acquisition terminologique en arabe: État de l’art (Terminological acquisition on MSA : State of the art)
Wafa Neifar
|
Ahmed Ben Ltaief
L’acquisition terminologique est une tâche indispensable pour l’accès aux informations présentes dans les corpus de spécialité. Il s’agit d’une part, d’identifier et d’extraire des termes, et d’autre part, de structurer ces termes à l’aide de méthodes d’acquisition de relations sémantiques. Dans cet article, nous nous intéressons l’acquisition terminologique sur des textes arabe standard moderne (MSA). Nous réalisons tout d’abord, un état de l’art décrivant les méthodes d’extraction de termes sur cette langue ainsi que les approches proposées pour la reconnaissance de relations sémantiques entre termes issus. Après avoir présenter quelques corpus de spécialité et ressources terminologiques disponibles en MSA que nous avons identifiés, nous décrivons nos premières pistes de travail.
pdf
bib
abs
Apprentissage bayésien incrémental pour la détermination de l’âge et du genre d’utilisateurs de plateformes du web social (UGC text-based age & gender author profiling through incrementally semi-supervised bayesian learning)
Jugurtha Aït Hamlat
Les méthodes de classification textuelles basées sur l’apprentissage automatique ont l’avantage, en plus d’être robustes, de fournir des résultats satisfaisants, sous réserve de disposer d’une base d’entraînement de qualité et en quantité suffisante. Les corpus d’apprentissage étant coûteux à construire, leur carence à grande échelle se révèle être l’une des principales causes d’erreurs. Dans un contexte industriel à forte volumétrie de données, nous présentons une approche de prédiction des deux plus importants indicateurs socio-démographiques « âge » et « genre » appliquée à des utilisateurs de forums, blogs et réseaux sociaux et ce, à partir de leurs seules productions textuelles. Le modèle bayésien multinomial est construit à partir d’un processus d’apprentissage incrémental et itératif sur une vaste base d’entraînement semi-supervisée. Le caractère incrémental permet de s’affranchir des contraintes de volumétrie. L’aspect itératif a pour objectif d’affiner le modèle et d’augmenter ainsi les niveaux de rappel & précision.
pdf
bib
abs
Conjonctions de subordination, verbes de dire et d’attitude propositionnelle : une modélisation STAG pour le discours (Modelling Subordinate Conjunctions, Attitude Verbs and Reporting Verbs in STAG: a Discourse Perspective)
Timothée Bernard
Nous proposons une nouvelle modélisation en grammaire d’arbres adjoints synchrone (STAG) syntaxe/sémantique pour les conjonctions de subordination (ConjSub) et les verbes de dire et d’attitude propositionnelle (VAP ; dire, penser, croire, etc.). Cette modélisation, plus riche que les modélisations traditionnelles, est conçue pour l’analyse du discours et fondée sur l’observation que ces deux catégories sont loin d’être homogènes. En effet, des travaux antérieurs ont montré d’une part que les occurrences de ConjSub pouvaient être divisées en deux classes aux propriétés syntaxiques et sémantiques différentes, d’autre part que les VAP présentaient en discours deux usages distincts : évidentiel et intentionnel. Notre proposition vise donc à rendre compte précisément de ces différences tout en modélisant les interactions entre VAP et ConjSub.
pdf
bib
abs
Hypernym extraction from Wikipedia
Adel Ghamnia
Hypernym extraction from Wikipédia The volume of available documents on the Web continues to increase, the texts contained in these documents are rich information describing concepts and relationships between concepts specific to a particular field. In this paper, we propose and exploit an hypernymy extractor based on lexico-syntactic patterns designed for Wikipedia semi-structured pages, especially the disambiguation pages, to enrich a knowledge base as BabelNet and DBPedia. The results show a precision of 0.68 and a recall of 0.75 for the patterns that we have defined, and an enrichment rate up to 33% for both BabelNet and DBPédia semantic resources.
pdf
bib
abs
Identifier et catégoriser l’ambiguïté dans les spécifications techniques de conceptions de systèmes (Identifying and classifying ambiguity in requirements)
Émilie Merdy
Cette étude s’inscrit dans le cadre d’une thèse Cifre avec Prometil 1 , une société qui commercialise un outil de détection automatique des erreurs dans les exigences, i.e. le contenu textuel des spécifications techniques. Il s’agit d’un travail de recherche dans la lignée des travaux en analyse de corpus menés par le laboratoire CLLE-ERSS qui s’intéresse aux corpus spécialisés. Dans le cadre de l’adaptation automatique des analyses sémantiques à de nouveaux domaines, nous étudions la détection automatique de l’ambiguïté - qu’elle soit syntaxique, sémantique ou lexicale - dans les exigences à partir de ressources lexicales spécifiques mais incomplètes. En parallèle, l’exploration des exigences, qui sont des données non-massives et porteuses de peu de variétés lexicale et syntaxique, doit permettre de mieux appréhender la spécificité linguistique de corpus techniques spécialisés pour enrichir semi-automatiquement des ressources lexicales adaptées.
pdf
bib
abs
Un modèle simple de coût cognitif de la résolution d’anaphores (A Simple Model of Cognitive Cost of Anaphora Resolution)
Olga Seminck
Nous présentons un travail en cours sur un projet de recherche en TAL et en psycholinguistique. Le but de notre projet est de modéliser le coût cognitif que représente la résolution d’anaphores. Nous voulons obtenir une mesure du coût cognitif continue et incrémentale qui peut, à un stade de recherche plus avancé, être corrélée avec des mesures d’occulométrie sur corpus. Pour cela, nous proposons une modélisation inspirée par des techniques venues du TAL. Nous utilisons un solveur d’anaphores probabiliste basé sur l’algorithme couples de mentions et la notion d’entropie pour établir une mesure du coût cognitif des anaphores. Ensuite, nous montrons par des visualisations quelles sont les prédictions de cette première modélisation pour les pronoms personnels de troisième personne dans le corpus ANCOR Centre.
pdf
bib
abs
La polysémie lexicale et syntaxique de l’alternance modale indicatif/subjonctif – perspectives TAL (Lexical and syntactic polysemy of the modal alternation indicative/subjunctive – NLP perspectives)
Divna Petkovic
|
Victor Rabiet
Certains verbes ont une double commande modale : ils admettent une construction permettant l’usage du subjonctif et de l’indicatif dans la complétive qui leur est adjointe. Ainsi, ces verbes se trouvent dans des contextes polysémiques à tous les niveaux d’analyse (lexicale, syntaxique, grammaticale et pragmatique). Dans un tel cas, le mode peut représenter une marque formelle désambiguïsante. Plus précisément, parfois le verbe régissant (dans la principale) est polysémique en lui-même, et selon son sens il commande soit l’indicatif, soit le subjonctif dans la subordonnée complétive : il s’agit de la polysémie lexicale, qui peut être forte ou faible. D’un autre point de vue, certains verbes à l’indicatif/subjonctif dans la subordonnée modifient plus ou moins légèrement le sens de la phrase entière : on considère ici cela comme un cas de polysémie syntaxique, étant donné que ces verbes apparaissent dans diverses structures et modalités.
pdf
bib
abs
Quelles sont les caractéristiques des interactions problématiques entre des utilisateurs et un conseiller virtuel ? (How to characterize problematic interactions between users and a web virtual advisor?)
Irina Maslowski
L’utilisation d’un conseiller virtuel pour la gestion de la relation client sur les sites des entreprises est une solution numérique de plus en plus adoptée. Le défi pour les entreprises est de mieux répondre aux attentes des clients en leur fournissant des interactions fluides entre le client et l’agent. Pour faire face à ce problème, cet article met l’accent sur la détection des problèmes d’interactions dans un corpus de tchat écrit entre un conseiller virtuel et ses utilisateurs. Il fournit une analyse de corpus en décrivant non seulement les spécificités linguistiques et les marqueurs d’opinion contenus dans le corpus du tchat humain-agent, mais aussi les indices linguistiques et dialogiques qui peuvent être pertinents pour caractériser une interaction problématique. Le modèle de règles proposé, utilisant les indices trouvés, est appliqué à un corpus avec des retours client négatifs et positifs pour révéler les tendances.