uppdf
bib
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Jean-Marc Lecarpentier
|
Nadine Lucas
pdf
bib
abs
Apprentissage par imitation pour l’étiquetage de séquences : vers une formalisation des méthodes d’étiquetage easy-first
Elena Knyazeva
|
Guillaume Wisniewski
|
François Yvon
De nombreuses méthodes ont été proposées pour accélérer la prédiction d’objets structurés (tels que les arbres ou les séquences), ou pour permettre la prise en compte de dépendances plus riches afin d’améliorer les performances de la prédiction. Ces méthodes reposent généralement sur des techniques d’inférence approchée et ne bénéficient d’aucune garantie théorique aussi bien du point de vue de la qualité de la solution trouvée que du point de vue de leur critère d’apprentissage. Dans ce travail, nous étudions une nouvelle formulation de l’apprentissage structuré qui consiste à voir celui-ci comme un processus incrémental au cours duquel la sortie est construite de façon progressive. Ce cadre permet de formaliser plusieurs approches de prédiction structurée existantes. Grâce au lien que nous faisons entre apprentissage structuré et apprentissage par renforcement, nous sommes en mesure de proposer une méthode théoriquement bien justifiée pour apprendre des méthodes d’inférence approchée. Les expériences que nous réalisons sur quatre tâches de TAL valident l’approche proposée.
pdf
bib
abs
Stratégies de sélection des exemples pour l’apprentissage actif avec des champs aléatoires conditionnels
Vincent Claveau
|
Ewa Kijak
Beaucoup de problèmes de TAL sont désormais modélisés comme des tâches d’apprentissage supervisé. De ce fait, le coût des annotations des exemples par l’expert représente un problème important. L’apprentissage actif (active learning) apporte un cadre à ce problème, permettant de contrôler le coût d’annotation tout en maximisant, on l’espère, la performance de la tâche visée, mais repose sur le choix difficile des exemples à soumettre à l’expert. Dans cet article, nous examinons et proposons des stratégies de sélection des exemples pour le cas spécifique des champs aléatoires conditionnels (Conditional Random Fields, CRF), outil largement utilisé en TAL. Nous proposons d’une part une méthode simple corrigeant un biais de certaines méthodes de l’état de l’art. D’autre part, nous détaillons une méthode originale de sélection s’appuyant sur un critère de respect des proportions dans les jeux de données manipulés. Le bien- fondé de ces propositions est vérifié au travers de plusieurs tâches et jeux de données, incluant reconnaissance d’entités nommées, chunking, phonétisation, désambiguïsation de sens.
pdf
bib
abs
Identification de facteurs de risque pour des patients diabétiques à partir de comptes-rendus cliniques par des approches hybrides
Cyril Grouin
|
Véronique Moriceau
|
Sophie Rosset
|
Pierre Zweigenbaum
Dans cet article, nous présentons les méthodes que nous avons développées pour analyser des comptes- rendus hospitaliers rédigés en anglais. L’objectif de cette étude consiste à identifier les facteurs de risque de décès pour des patients diabétiques et à positionner les événements médicaux décrits par rapport à la date de création de chaque document. Notre approche repose sur (i) HeidelTime pour identifier les expressions temporelles, (ii) des CRF complétés par des règles de post-traitement pour identifier les traitements, les maladies et facteurs de risque, et (iii) des règles pour positionner temporellement chaque événement médical. Sur un corpus de 514 documents, nous obtenons une F-mesure globale de 0,8451. Nous observons que l’identification des informations directement mentionnées dans les documents se révèle plus performante que l’inférence d’informations à partir de résultats de laboratoire.
pdf
bib
abs
Oublier ce qu’on sait, pour mieux apprendre ce qu’on ne sait pas : une étude sur les contraintes de type dans les modèles CRF
Nicolas Pécheux
|
Alexandre Allauzen
|
Thomas Lavergne
|
Guillaume Wisniewski
|
François Yvon
Quand on dispose de connaissances a priori sur les sorties possibles d’un problème d’étiquetage, il semble souhaitable d’inclure cette information lors de l’apprentissage pour simplifier la tâche de modélisation et accélérer les traitements. Pourtant, même lorsque ces contraintes sont correctes et utiles au décodage, leur utilisation lors de l’apprentissage peut dégrader sévèrement les performances. Dans cet article, nous étudions ce paradoxe et montrons que le manque de contraste induit par les connaissances entraîne une forme de sous-apprentissage qu’il est cependant possible de limiter.
pdf
bib
abs
Analyse d’expressions temporelles dans les dossiers électroniques patients
Mike Donald Tapi Nzali
|
Aurélie Névéol
|
Xavier Tannier
Les références à des phénomènes du monde réel et à leur caractérisation temporelle se retrouvent dans beaucoup de types de discours en langue naturelle. Ainsi, l’analyse temporelle apparaît comme un élément important en traitement automatique de la langue. Cet article présente une analyse de textes en domaine de spécialité du point de vue temporel. En s’appuyant sur un corpus de documents issus de plusieurs dossiers électroniques patient désidentifiés, nous décrivons la construction d’une ressource annotée en expressions temporelles selon la norme TimeML. Par suite, nous utilisons cette ressource pour évaluer plusieurs méthodes d’extraction automatique d’expressions temporelles adaptées au domaine médical. Notre meilleur système statistique offre une performance de 0,91 de F-mesure, surpassant pour l’identification le système état de l’art HeidelTime. La comparaison de notre corpus de travail avec le corpus journalistique FR-Timebank permet également de caractériser les différences d’utilisation des expressions temporelles dans deux domaines de spécialité.
pdf
bib
abs
Compréhension automatique de la parole sans données de référence
Emmanuel Ferreira
|
Bassam Jabaian
|
Fabrice Lefèvre
La majorité des méthodes état de l’art en compréhension automatique de la parole ont en commun de devoir être apprises sur une grande quantité de données annotées. Cette dépendance aux données constitue un réel obstacle lors du développement d’un système pour une nouvelle tâche/langue. Aussi, dans cette étude, nous présentons une méthode visant à limiter ce besoin par un mécanisme d’apprentissage sans données de référence (zero-shot learning). Cette méthode combine une description ontologique minimale de la tâche visée avec l’utilisation d’un espace sémantique continu appris par des approches à base de réseaux de neurones à partir de données génériques non-annotées. Nous montrons que le modèle simple et peu coûteux obtenu peut atteindre, dès le démarrage, des performances comparables à celles des systèmes état de l’art reposant sur des règles expertes ou sur des approches probabilistes sur des tâches de compréhension de la parole de référence (tests des Dialog State Tracking Challenges, DSTC2 et DSTC3). Nous proposons ensuite une stratégie d’adaptation en ligne permettant d’améliorer encore les performances de notre approche à l’aide d’une supervision faible et ajustable par l’utilisateur.
pdf
bib
abs
Désambiguïsation d’entités pour l’induction non supervisée de schémas événementiels
Kiem-Hieu Nguyen
|
Xavier Tannier
|
Olivier Ferret
|
Romaric Besançon
Cet article présente un modèle génératif pour l’induction non supervisée d’événements. Les précédentes méthodes de la littérature utilisent uniquement les têtes des syntagmes pour représenter les entités. Pourtant, le groupe complet (par exemple, ”un homme armé”) apporte une information plus discriminante (que ”homme”). Notre modèle tient compte de cette information et la représente dans la distribution des schémas d’événements. Nous montrons que ces relations jouent un rôle important dans l’estimation des paramètres, et qu’elles conduisent à des distributions plus cohérentes et plus discriminantes. Les résultats expérimentaux sur le corpus de MUC-4 confirment ces progrès.
pdf
bib
abs
Création rapide et efficace d’un système de désambiguïsation lexicale pour une langue peu dotée
Mohammad Nasiruddin
|
Andon Tchechmedjiev
|
Hervé Blanchon
|
Didier Schwab
Nous présentons une méthode pour créer rapidement un système de désambiguïsation lexicale (DL) pour une langue L peu dotée pourvu que l’on dispose d’un système de traduction automatique statistique (TAS) d’une langue riche en corpus annotés en sens (ici l’anglais) vers L. Il est, en effet, plus facile de disposer des ressources nécessaires à la création d’un système de TAS que des ressources dédiées nécessaires à la création d’un système de DL pour la langue L. Notre méthode consiste à traduire automatiquement un corpus annoté en sens vers la langue L, puis de créer le système de désambiguïsation pour L par des méthodes supervisées classiques. Nous montrons la faisabilité de la méthode et sa généricité en traduisant le SemCor, un corpus en anglais annoté grâce au Princeton WordNet, de l’anglais vers le bangla et de l’anglais vers le français. Nous montrons la validité de l’approche en évaluant les résultats sur la tâche de désambiguïsation lexicale multilingue de Semeval 2013.
pdf
bib
abs
Méthode faiblement supervisée pour l’extraction d’opinion ciblée dans un domaine spécifique
Romaric Besançon
La détection d’opinion ciblée a pour but d’attribuer une opinion à une caractéristique particulière d’un produit donné. La plupart des méthodes existantes envisagent pour cela une approche non supervisée. Or, les utilisateurs ont souvent une idée a priori des caractéristiques sur lesquelles ils veulent découvrir l’opinion des gens. Nous proposons dans cet article une méthode pour une extraction d’opinion ciblée, qui exploite cette information minimale sur les caractéristiques d’intérêt. Ce modèle s’appuie sur une segmentation automatique des textes, un enrichissement des données disponibles par similarité sémantique, et une annotation de l’opinion par classification supervisée. Nous montrons l’intérêt de l’approche sur un cas d’étude dans le domaine des jeux vidéos.
pdf
bib
abs
Une méthodologie de sémantique de corpus appliquée à des tâches de fouille d’opinion et d’analyse des sentiments : étude sur l’impact de marqueurs dialogiques et dialectiques dans l’expression de la subjectivité
Egle Eensoo
|
Mathieu Valette
Cet article entend dresser, dans un premier temps, un panorama critique des relations entre TAL et linguistique. Puis, il esquisse une discussion sur l’apport possible d’une sémantique de corpus dans un contexte applicatif en s’appuyant sur plusieurs expériences en fouille de textes subjectifs (analyse de sentiments et fouille d’opinions). Ces expériences se démarquent des approches traditionnelles fondées sur la recherche de marqueurs axiologiques explicites par l’utilisation de critères relevant des représentations des acteurs (composante dialogique) et des structures argumentatives et narratives des textes (composante dialectique). Nous souhaitons de cette façon mettre en lumière le bénéfice d’un dialogue méthodologique entre une théorie (la sémantique textuelle), des méthodes de linguistique de corpus orientées vers l’analyse du sens (la textométrie) et les usages actuels du TAL en termes d’algorithmiques (apprentissage automatique) mais aussi de méthodologie d’évaluation des résultats.
pdf
bib
abs
Estimation de l’homogénéité sémantique pour les Questionnaires à Choix Multiples
Van-Minh Pho
|
Anne-Laure Ligozat
|
Brigitte Grau
L’homogénéité sémantique stipule que des termes sont sémantiquement proches mais non similaires. Cette notion est au cœur de travaux relatifs à la génération automatique de questionnaires à choix multiples, et particulièrement à la sélection automatique de distracteurs. Dans cet article, nous présentons une méthode d’estimation de l’homogénéité sémantique dans un cadre de validation automatique de distracteurs. Cette méthode est fondée sur une combinaison de plusieurs critères de voisinage et de similarité sémantique entre termes, par apprentissage automatique. Nous montrerons que notre méthode permet d’obtenir une meilleure estimation de l’homogénéité sémantique que les méthodes proposées dans l’état de l’art.
pdf
bib
abs
Extraction automatique de relations sémantiques dans les dé finitions : approche hybride, construction d’un corpus de relations sémantiques pour le français
Emmanuel Cartier
Cet article présente une expérimentation visant à construire une ressource sémantique pour le français contemporain à partir d’un corpus d’environ un million de définitions tirées de deux ressources lexicographiques (Trésor de la Langue Française, Wiktionary) et d’une ressource encyclopédique (Wikipedia). L’objectif est d’extraire automatiquement dans les définitions différentes relations sémantiques : hyperonymie, synonymie, méronymie, autres relations sémantiques. La méthode suivie combine la précision des patrons lexico-syntaxiques et le rappel des méthodes statistiques, ainsi qu’un traitement inédit de canonisation et de décomposition des énoncés. Après avoir présenté les différentes approches et réalisations existantes, nous détaillons l’architecture du système et présentons les résultats : environ 900 000 relations d’hyperonymie et près de 100 000 relations de synonymie, avec un taux de précision supérieur à 90% sur un échantillon aléatoire de 500 relations. Plus de 2 millions de prédications définitoires ont également été extraites.
pdf
bib
abs
Déclasser les voisins non sémantiques pour améliorer les thésaurus distributionnels
Olivier Ferret
La plupart des méthodes d’amélioration des thésaurus distributionnels se focalisent sur les moyens – représentations ou mesures de similarité – de mieux détecter la similarité sémantique entre les mots. Dans cet article, nous proposons un point de vue inverse : nous cherchons à détecter les voisins sémantiques associés à une entrée les moins susceptibles d’être liés sémantiquement à elle et nous utilisons cette information pour réordonner ces voisins. Pour détecter les faux voisins sémantiques d’une entrée, nous adoptons une approche s’inspirant de la désambiguïsation sémantique en construisant un classifieur permettant de différencier en contexte cette entrée des autres mots. Ce classifieur est ensuite appliqué à un échantillon des occurrences des voisins de l’entrée pour repérer ceux les plus éloignés de l’entrée. Nous évaluons cette méthode pour des thésaurus construits à partir de cooccurrents syntaxiques et nous montrons l’intérêt de la combiner avec les méthodes décrites dans (Ferret, 2013b) selon une stratégie de type vote.
pdf
bib
abs
Grammaires phrastiques et discursives fondées sur les TAG : une approche de D-STAG avec les ACG
Laurence Danlos
|
Aleksandre Maskharashvili
|
Sylvain Pogodalla
Nous présentons une méthode pour articuler grammaire de phrase et grammaire de discours qui évite de recourir à une étape de traitement intermédiaire. Cette méthode est suffisamment générale pour construire des structures discursives qui ne soient pas des arbres mais des graphes orientés acycliques (DAG). Notre analyse s’appuie sur une approche de l’analyse discursive, Discourse Synchronous TAG (D-STAG), qui utilise les Grammaires d’Arbres Adjoint (TAG). Nous utilisons pour ce faire un encodage des TAG dans les Grammaires Catégorielles Abstraites (ACG). Cet encodage permet d’une part d’utiliser l’ordre supérieur pour l’interprétation sémantique afin de construire des structures qui soient des DAG et non des arbres, et d’autre part d’utiliser les propriétés de composition d’ACG pour réaliser naturellement l’interface entre grammaire phrastique et grammaire discursive. Tous les exemples proposés pour illustrer la méthode ont été implantés et peuvent être testés avec le logiciel approprié.
pdf
bib
abs
Noyaux de réécriture de phrases munis de types lexico-sémantiques
Martin Gleize
|
Brigitte Grau
De nombreux problèmes en traitement automatique des langues requièrent de déterminer si deux phrases sont des réécritures l’une de l’autre. Une solution efficace consiste à apprendre les réécritures en se fondant sur des méthodes à noyau qui mesurent la similarité entre deux réécritures de paires de phrases. Toutefois, ces méthodes ne permettent généralement pas de prendre en compte des variations sémantiques entre mots, qui permettraient de capturer un plus grand nombre de règles de réécriture. Dans cet article, nous proposons la définition et l’implémentation d’une nouvelle classe de fonction noyau, fondée sur la réécriture de phrases enrichie par un typage pour combler ce manque. Nous l’évaluons sur deux tâches, la reconnaissance de paraphrases et d’implications textuelles.
pdf
bib
abs
Extraction automatique de paraphrases grand public pour les termes médicaux
Natalia Grabar
|
Thierry Hamon
Nous sommes tous concernés par notre état de santé et restons sensibles aux informations de santé disponibles dans la société moderne à travers par exemple les résultats des recherches scientifiques, les médias sociaux de santé, les documents cliniques, les émissions de télé et de radio ou les nouvelles. Cependant, il est commun de rencontrer dans le domaine médical des termes très spécifiques (e.g., blépharospasme, alexitymie, appendicectomie), qui restent difficiles à comprendre par les non spécialistes. Nous proposons une méthode automatique qui vise l’acquisition de paraphrases pour les termes médicaux, qui soient plus faciles à comprendre que les termes originaux. La méthode est basée sur l’analyse morphologique des termes, l’analyse syntaxique et la fouille de textes non spécialisés. L’analyse et l’évaluation des résultats indiquent que de telles paraphrases peuvent être trouvées dans les documents non spécialisés et présentent une compréhension plus facile. En fonction des paramètres de la méthode, la précision varie entre 86 et 55%. Ce type de ressources est utile pour plusieurs applications de TAL (e.g., recherche d’information grand public, lisibilité et simplification de textes, systèmes de question-réponses).
pdf
bib
abs
Analyse syntaxique de l’ancien français : quelles propriétés de la langue influent le plus sur la qualité de l’apprentissage ?
Gaël Guibon
|
Isabelle Tellier
|
Sophie Prévost
|
Matthieu Constant
|
Kim Gerdes
L’article présente des résultats d’expériences d’apprentissage automatique pour l’étiquetage morpho-syntaxique et l’analyse syntaxique en dépendance de l’ancien français. Ces expériences ont pour objectif de servir une exploration de corpus pour laquelle le corpus arboré SRCMF sert de données de référence. La nature peu standardisée de la langue qui y est utilisée implique des données d’entraînement hétérogènes et quantitativement limitées. Nous explorons donc diverses stratégies, fondées sur différents critères (variabilité du lexique, forme Vers/Prose des textes, dates des textes), pour constituer des corpus d’entrainement menant aux meilleurs résultats possibles.
pdf
bib
abs
Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales
Romain Brixtel
|
Charlotte Lecluze
|
Gaël Lejeune
Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes. A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée. Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères. Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du nème ordre (c’est-à-dire des répétitions maximales détectées dans un ensemble de répétitions maximales). Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.
pdf
bib
abs
Mesurer la similarité entre phrases grâce à Wikipédia en utilisant une indexation aléatoire
Hai Hieu Vu
|
Jeanne Villaneau
|
Farida Saïd
|
Pierre-François Marteau
Cet article présente une méthode pour mesurer la similarité sémantique entre phrases qui utilise Wikipédia comme unique ressource linguistique et qui est, de ce fait, utilisable pour un grand nombre de langues. Basée sur une représentation vectorielle, elle utilise une indexation aléatoire pour réduire la dimension des espaces manipulés. En outre, elle inclut une technique de calcul des vecteurs de termes qui corrige les défauts engendrés par l’utilisation d’un corpus aussi général que Wikipédia. Le système a été évalué sur les données de SemEval 2014 en anglais avec des résultats très encourageants, au-dessus du niveau moyen des systèmes en compétition. Il a également été testé sur un ensemble de paires de phrases en français, à partir de ressources que nous avons construites et qui seront mises à la libre disposition de la communauté scientifique.
pdf
bib
abs
Typologie automatique des langues à partir de treebanks
Philippe Blache
|
Grégroie de Montcheuil
|
Stéphane Rauzy
La typologie des langues repose sur l’étude de la réalisation de propriétés ou phénomènes linguistiques dans plusieurs langues ou familles de langues. Nous abordons dans cet article la question de la typologie syntaxique et proposons une méthode permettant d’extraire automatiquement ces propriétés à partir de treebanks, puis de les analyser en vue de dresser une telle typologie. Nous décrivons cette méthode ainsi que les outils développés pour la mettre en œuvre. Celle-ci a été appliquée à l’analyse de 10 langues décrites dans le Universal Dependencies Treebank. Nous validons ces résultats en montrant comment une technique de classification permet, sur la base des informations extraites, de reconstituer des familles de langues.
pdf
bib
abs
Utilisation de mesures de confiance pour améliorer le décodage en traduction de parole
Laurent Besacier
|
Benjamin Lecouteux
|
Luong Ngoc Quang
Les mesures de confiance au niveau mot (Word Confidence Estimation - WCE) pour la traduction auto- matique (TA) ou pour la reconnaissance automatique de la parole (RAP) attribuent un score de confiance à chaque mot dans une hypothèse de transcription ou de traduction. Dans le passé, l’estimation de ces mesures a le plus souvent été traitée séparément dans des contextes RAP ou TA. Nous proposons ici une estimation conjointe de la confiance associée à un mot dans une hypothèse de traduction automatique de la parole (TAP). Cette estimation fait appel à des paramètres issus aussi bien des systèmes de transcription de la parole (RAP) que des systèmes de traduction automatique (TA). En plus de la construction de ces estimateurs de confiance robustes pour la TAP, nous utilisons les informations de confiance pour re-décoder nos graphes d’hypothèses de traduction. Les expérimentations réalisées montrent que l’utilisation de ces mesures de confiance au cours d’une seconde passe de décodage permettent d’obtenir une amélioration significative des performances de traduction (évaluées avec la métrique BLEU - gains de deux points par rapport à notre système de traduc- tion de parole de référence). Ces expériences sont faites pour une tâche de TAP (français-anglais) pour laquelle un corpus a été spécialement conçu (ce corpus, mis à la disposition de la communauté TALN, est aussi décrit en détail dans l’article).
pdf
bib
abs
Multialignement vs bialignement : à plusieurs, c’est mieux !
Olivier Kraif
Dans cet article, nous proposons une méthode originale destinée à effectuer l’alignement d’un corpus multiparallèle, i.e. comportant plus de deux langues, en prenant en compte toutes les langues simultanément (et non en composant une série de bialignements indépendants). Pour ce faire, nous nous appuyons sur les réseaux de correspondances lexicales constitués par les transfuges (chaînes identiques) et cognats (mots apparentés), et nous montrons comment divers tuilages des couples de langues permettent d’exploiter au mieux les ressemblances superficielles liées aux relations génétiques interlinguistiques. Nous évaluons notre méthode par rapport à une méthode de bialignement classique, et montrons en quoi le multialignement permet d’obtenir des résultats à la fois plus précis et plus robustes.
pdf
bib
abs
Apprentissage discriminant des modèles continus de traduction
Quoc-Khanh Do
|
Alexandre Allauzen
|
François Yvon
Alors que les réseaux neuronaux occupent une place de plus en plus importante dans le traitement automatique des langues, les méthodes d’apprentissage actuelles utilisent pour la plupart des critères qui sont décorrélés de l’application. Cet article propose un nouveau cadre d’apprentissage discriminant pour l’estimation des modèles continus de traduction. Ce cadre s’appuie sur la définition d’un critère d’optimisation permettant de prendre en compte d’une part la métrique utilisée pour l’évaluation de la traduction et d’autre part l’intégration de ces modèles au sein des systèmes de traduction automatique. De plus, cette méthode d’apprentissage est comparée aux critères existants d’estimation que sont le maximum de vraisemblance et l’estimation contrastive bruitée. Les expériences menées sur la tâches de traduction des séminaires TED Talks de l’anglais vers le français montrent la pertinence d’un cadre discriminant d’apprentissage, dont les performances restent toutefois très dépendantes du choix d’une stratégie d’initialisation idoine. Nous montrons qu’avec une initialisation judicieuse des gains significatifs en termes de scores BLEU peuvent être obtenus.
pdf
bib
abs
Utiliser les interjections pour détecter les émotions
Amel Fraisse
|
Patrick Paroubek
Bien que les interjections soient un phénomène linguistique connu, elles ont été peu étudiées et cela continue d’être le cas pour les travaux sur les microblogs. Des travaux en analyse de sentiments ont montré l’intérêt des émoticônes et récemment des mots-dièses, qui s’avèrent être très utiles pour la classification en polarité. Mais malgré leur statut grammatical et leur richesse sémantique, les interjections sont restées marginalisées par les systèmes d’analyse de sentiments. Nous montrons dans cet article l’apport majeur des interjections pour la détection des émotions. Nous détaillons la production automatique, basée sur les interjections, d’un corpus étiqueté avec les émotions. Nous expliquons ensuite comment nous avons utilisé ce corpus pour en déduire, automatiquement, un lexique affectif pour le français. Ce lexique a été évalué sur une tâche de détection des émotions, qui a montré un gain en mesure F1 allant, selon les émotions, de +0,04 à +0,21.
pdf
bib
abs
Comparaison d’architectures neuronales pour l’analyse syntaxique en constituants
Maximin Coavoux
|
Benoît Crabbé
L’article traite de l’analyse syntaxique lexicalisée pour les grammaires de constituants. On se place dans le cadre de l’analyse par transitions. Les modèles statistiques généralement utilisés pour cette tâche s’appuient sur une représentation non structurée du lexique. Les mots du vocabulaire sont représentés par des symboles discrets sans liens entre eux. À la place, nous proposons d’utiliser des représentations denses du type plongements (embeddings) qui permettent de modéliser la similarité entre symboles, c’est-à-dire entre mots, entre parties du discours et entre catégories syntagmatiques. Nous proposons d’adapter le modèle statistique sous-jacent à ces nouvelles représentations. L’article propose une étude de 3 architectures neuronales de complexité croissante et montre que l’utilisation d’une couche cachée non-linéaire permet de tirer parti des informations données par les plongements.
pdf
bib
abs
...des conférences enfin disons des causeries... Détection automatique de segments en relation de paraphrase dans les reformulations de corpus oraux
Natalia Grabar
|
Iris Eshkol
Notre travail porte sur la détection automatique des segments en relation de reformulation paraphrastique dans les corpus oraux. L’approche proposée est une approche syntagmatique qui tient compte des marqueurs de reformulation paraphrastique et des spécificités de l’oral. Les données de référence sont consensuelles. Une méthode automatique fondée sur l’apprentissage avec les CRF est proposée afin de détecter les segments paraphrasés. Différents descripteurs sont exploités dans une fenêtre de taille variable. Les tests effectués montrent que les segments en relation de paraphrase sont assez difficiles à détecter, surtout avec leurs frontières correctes. Les meilleures moyennes atteignent 0,65 de F-mesure, 0,75 de précision et 0,63 de rappel. Nous avons plusieurs perspectives à ce travail pour améliorer la détection des segments en relation de paraphrase et pour étudier les données depuis d’autres points de vue.
uppdf
bib
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Jean-Marc Lecarpentier
|
Nadine Lucas
pdf
bib
abs
Une méthode discriminant formation simple pour la traduction automatique avec Grands Caractéristiques
Tian Xia
|
Shaodan Zhai
|
Zhongliang Li
|
Shaojun Wang
Marge infusé algorithmes détendus (MIRAS) dominent modèle de tuning dans la traduction automatique statistique dans le cas des grandes caractéristiques de l’échelle, mais ils sont également célèbres pour la complexité de mise en œuvre. Nous introduisons une nouvelle méthode, qui concerne une liste des N meilleures comme une permutation et minimise la perte Plackett-Luce de permutations rez-de-vérité. Des expériences avec des caractéristiques à grande échelle démontrent que, la nouvelle méthode est plus robuste que MERT ; si ce est seulement à rattacher avec Miras, il a un avantage comparativement, plus facile à mettre en œuvre.
pdf
bib
abs
Natural Language Reasoning using Coq: Interaction and Automation
Stergios Chatzikyriakidis
Dans cet article, nous présentons une utilisation des assistants des preuves pour traiter l’inférence en Language Naturel (NLI). D’ abord, nous proposons d’utiliser les theories des types modernes comme langue dans laquelle traduire la sémantique du langage naturel. Ensuite, nous implémentons cette sémantique dans l’assistant de preuve Coq pour raisonner sur ceux-ci. En particulier, nous évaluons notre proposition sur un sous-ensemble de la suite de tests FraCas, et nous montrons que 95.2% des exemples peuvent être correctement prédits. Nous discutons ensuite la question de l’automatisation et il est démontré que le langage de tactiques de Coq permet de construire des tactiques qui peuvent automatiser entièrement les preuves, au moins pour les cas qui nous intéressent.
pdf
bib
abs
Vous aimez ?...ou pas ? LikeIt, un jeu pour construire une ressource lexicale de polarité
Mathieu Lafourcade
|
Nathalie Le Brun
|
Alain Joubert
En analyse de discours ou d’opinion, savoir caractériser la connotation générale d’un texte, les sentiments qu’il véhicule, est une aptitude recherchée, qui suppose la constitution préalable d’une ressource lexicale de polarité. Au sein du réseau lexical JeuxDeMots, nous avons mis au point LikeIt, un jeu qui permet d’affecter une valeur positive, négative, ou neutre à un terme, et de constituer ainsi pour chaque terme, à partir des votes, une polarité résultante. Nous présentons ici l’analyse quantitative des données de polarité obtenues, ainsi que la méthode pour les valider qualitativement.
pdf
bib
abs
Étude des verbes introducteurs de noms de médicaments dans les forums de santé
François Morlane-Hondère
|
Cyril Grouin
|
Pierre Zweigenbaum
Dans cet article, nous combinons annotations manuelle et automatique pour identifier les verbes utilisés pour introduire un médicament dans les messages sur les forums de santé. Cette information est notamment utile pour identifier la relation entre un médicament et un effet secondaire. La mention d’un médicament dans un message ne garantit pas que l’utilisateur a pris ce traitement mais qu’il effectue un retour. Nous montrons ensuite que ces verbes peuvent servir pour extraire automatiquement des variantes de noms de médicaments. Nous estimons que l’analyse de ces variantes pourrait permettre de modéliser les erreurs faites par les usagers des forums lorsqu’ils écrivent les noms de médicaments, et améliorer en conséquence les systèmes de recherche d’information.
pdf
bib
abs
Initialisation de Réseaux de Neurones à l’aide d’un Espace Thématique
Mohamed Morchid
|
Richard Dufour
|
Georges Linarès
Ce papier présente une méthode de traitement de documents parlés intégrant une représentation fondée sur un espace thématique dans un réseau de neurones artificiels (ANN) employé comme classifieur de document. La méthode proposée consiste à configurer la topologie d’un ANN ainsi que d’initialiser les connexions de celui-ci à l’aide des espaces thématiques appris précédemment. Il est attendu que l’initialisation fondée sur les probabilités thématiques permette d’optimiser le processus d’optimisation des poids du réseau ainsi qu’à accélérer la phase d’apprentissage tout en amélioration la précision de la classification d’un document de test. Cette méthode est évaluée lors d’une tâche de catégorisation de dialogues parlés entre des utilisateurs et des agents du service d’appels de la Régie Autonome Des Transports Parisiens (RATP). Les résultats montrent l’intérêt de la méthode proposée d’initialisation d’un réseau, avec un gain observé de plus de 4 points en termes de bonne classification comparativement à l’initialisation aléatoire. De plus, les expérimentations soulignent que les performances sont faiblement dépendantes de la topologie du ANN lorsque les poids de la couche cachée sont initialisés au moyen des espaces de thèmes issus d’une allocation latente de Dirichlet ou latent Dirichlet Allocation (LDA) en comparaison à une initialisation empirique.
pdf
bib
abs
FDTB1: Repérage des connecteurs de discours en corpus
Jacques Steinlin
|
Margot Colinet
|
Laurence Danlos
Cet article présente le repérage manuel des connecteurs de discours dans le corpus FTB (French Treebank) déjà annoté pour la morpho-syntaxe. C’est la première étape de l’annotation discursive complète de ce corpus. Il s’agit de projeter sur le corpus les éléments répertoriés dans LexConn, lexique des connecteurs du français, et de filtrer les occurrences de ces éléments qui n’ont pas un emploi discursif mais par exemple un emploi d’adverbe de manière ou de préposition introduisant un complément sous-catégorisé. Plus de 10 000 connecteurs ont ainsi été repérés.
pdf
bib
abs
ROBO, an edit distance for sentence comparison Application to automatic summarization
Aurélien Bossard
|
Christophe Rodrigues
Dans cet article, nous proposons une mesure de distance entre phrases fondée sur la distance de Levenshtein, doublement pondérée par la fréquence des mots et par le type d’opération réalisée. Nous l’évaluons au sein d’un système de résumé automatique dont la méthode de calcul est volontairement limitée à une approche fondée sur la similarité entre phrases. Nous sommes donc ainsi en mesure d’évaluer indirectement la performance de cette nouvelle mesure de distance.
pdf
bib
abs
Classification d’entités nommées de type film
Olivier Collin
|
Aleksandra Guerraz
Dans cet article, nous nous intéressons à la classification contextuelle d’entités nommées de type film . Notre travail s’inscrit dans un cadre applicatif dont le but est de repérer, dans un texte, un titre de film contenu dans un catalogue (par exemple catalogue de films disponibles en VoD). Pour ce faire, nous combinons deux approches : nous partons d’un système à base de règles, qui présente une bonne précision, que nous couplons avec un modèle de langage permettant d’augmenter le rappel. La génération peu coûteuse de données d’apprentissage pour le modèle de langage à partir de Wikipedia est au coeur de ce travail. Nous montrons, à travers l’évaluation de notre système, la difficulté de classification des entités nommées de type film ainsi que la complémentarité des approches que nous utilisons pour cette tâche.
pdf
bib
abs
A critical survey on measuring success in rank-based keyword assignment to documents
Natalie Schluter
Evaluation approaches for unsupervised rank-based keyword assignment are nearly as numerous as are the existing systems. The prolific production of each newly used metric (or metric twist) seems to stem from general dis-satisfaction with the previous one and the source of that dissatisfaction has not previously been discussed in the literature. The difficulty may stem from a poor specification of the keyword assignment task in view of the rank-based approach. With a more complete specification of this task, we aim to show why the previous evaluation metrics fail to satisfy researchers’ goals to distinguish and detect good rank-based keyword assignment systems. We put forward a characterisation of an ideal evaluation metric, and discuss the consistency of the evaluation metrics with this ideal, finding that the average standard normalised cumulative gain metric is most consistent with this ideal.
pdf
bib
abs
Effects of Graph Generation for Unsupervised Non-Contextual Single Document Keyword Extraction
Natalie Schluter
This paper presents an exhaustive study on the generation of graph input to unsupervised graph-based non-contextual single document keyword extraction systems. A concrete hypothesis on concept coordination for documents that are scientific articles is put forward, consistent with two separate graph models : one which is based on word adjacency in the linear text–an approach forming the foundation of all previous graph-based keyword extraction methods, and a novel one that is based on word adjacency modulo their modifiers. In doing so, we achieve a best reported NDCG score to date of 0.431 for any system on the same data. In terms of a best parameter f-score, we achieve the highest reported to date (0.714) at a reasonable ranked list cut-off of n = 6, which is also the best reported f-score for any keyword extraction or generation system in the literature on the same data. The best-parameter f-score corresponds to a reduction in error of 12.6% conservatively.
pdf
bib
abs
Adaptation par enrichissement terminologique en traduction automatique statistique fondée sur la génération et le filtrage de bi-segments virtuels
Christophe Servan
|
Marc Dymetman
Nous présentons des travaux préliminaires sur une approche permettant d’ajouter des termes bilingues à un système de Traduction Automatique Statistique (TAS) à base de segments. Les termes sont non seulement inclus individuellement, mais aussi avec des contextes les englobant. Tout d’abord nous générons ces contextes en généralisant des motifs (ou patrons) observés pour des mots de même nature syntaxique dans un corpus bilingue. Enfin, nous filtrons les contextes qui n’atteignent pas un certain seuil de confiance, à l’aide d’une méthode de sélection de bi-segments inspirée d’une approche de sélection de données, précédemment appliquée à des textes bilingues alignés.
pdf
bib
abs
Une mesure d’intérêt à base de surreprésentation pour l’extraction des motifs syntaxiques stylistiques
Mohamed Amine Boukhaled
|
Francesca Frontini
|
Jean-Gabriel Ganascia
Dans cette contribution, nous présentons une étude sur la stylistique computationnelle des textes de la littérature classiques française fondée sur une approche conduite par données, où la découverte des motifs linguistiques intéressants se fait sans aucune connaissance préalable. Nous proposons une mesure objective capable de capturer et d’extraire des motifs syntaxiques stylistiques significatifs à partir d’un œuvre d’un auteur donné. Notre hypothèse de travail est fondée sur le fait que les motifs syntaxiques les plus pertinents devraient refléter de manière significative le choix stylistique de l’auteur, et donc ils doivent présenter une sorte de comportement de surreprésentation contrôlé par les objectifs de l’auteur. Les résultats analysés montrent l’efficacité dans l’extraction de motifs syntaxiques intéressants dans le texte littéraire français classique, et semblent particulièrement prometteurs pour les analyses de ce type particulier de texte.
pdf
bib
abs
Une Approche évolutionnaire pour le résumé automatique
Aurélien Bossard
|
Christophe Rodrigues
Dans cet article, nous proposons une méthode de résumé automatique fondée sur l’utilisation d’un algorithme génétique pour parcourir l’espace des résumés candidats couplé à un calcul de divergence de distribution de probabilités de n-grammes entre résumés candidats et documents source. Cette méthode permet de considérer un résumé non plus comme une accumulation de phrases indépendantes les unes des autres, mais comme un texte vu dans sa globalité. Nous la comparons à une des meilleures méthodes existantes fondée sur la programmation linéaire en nombre entier, et montrons son efficacité sur le corpus TAC 2009.
pdf
bib
abs
Identification des unités de mesure dans les textes scientifiques
Soumia Lilia Berrahou
|
Patrice Buche
|
Juliette Dibie-Barthélemy
|
Mathieu Roche
Le travail présenté dans cet article se situe dans le cadre de l’identification de termes spécialisés (unités de mesure) à partir de données textuelles pour enrichir une Ressource Termino-Ontologique (RTO). La première étape de notre méthode consiste à prédire la localisation des variants d’unités de mesure dans les documents. Nous avons utilisé une méthode reposant sur l’apprentissage supervisé. Cette méthode permet de réduire sensiblement l’espace de recherche des variants tout en restant dans un contexte optimal de recherche (réduction de 86% de l’espace de recherché sur le corpus étudié). La deuxième étape du processus, une fois l’espace de recherche réduit aux variants d’unités, utilise une nouvelle mesure de similarité permettant d’identifier automatiquement les variants découverts par rapport à un terme d’unité déjà référencé dans la RTO avec un taux de précision de 82% pour un seuil au dessus de 0.6 sur le corpus étudié.
pdf
bib
abs
Évaluation intrinsèque et extrinsèque du nettoyage de pages Web
Gaël Lejeune
|
Romain Brixtel
|
Charlotte Lecluze
Le nettoyage de documents issus du web est une tâche importante pour le TAL en général et pour la constitution de corpus en particulier. Cette phase est peu traitée dans la littérature, pourtant elle n’est pas sans influence sur la qualité des informations extraites des corpus. Nous proposons deux types d’évaluation de cette tâche de détourage : (I) une évaluation intrinsèque fondée sur le contenu en mots, balises et caractères ; (II) une évaluation extrinsèque fondée sur la tâche, en examinant l’effet du détourage des documents sur le système placé en aval de la chaîne de traitement. Nous montrons que les résultats ne sont pas cohérents entre ces deux évaluations ainsi qu’entre les différentes langues. Ainsi, le choix d’un outil de détourage devrait être guidé par la tâche visée plutôt que par la simple évaluation intrinsèque.
pdf
bib
abs
CANÉPHORE : un corpus français pour la fouille d’opinion ciblée
Joseph Lark
|
Emmanuel Morin
|
Sebastián Peña Saldarriaga
La fouille d’opinion ciblée (aspect-based sentiment analysis) fait l’objet ces dernières années d’un intérêt particulier, visible dans les sujets des récentes campagnes d’évaluation comme SemEval 2014 et 2015 ou bien DEFT 2015. Cependant les corpus annotés et publiquement disponibles permettant l’évaluation de cette tâche sont rares. Dans ce travail nous présentons en premier lieu un corpus français librement accessible de 10 000 tweets manuellement annotés. Nous accompagnons ce corpus de résultats de référence pour l’extraction de marqueurs d’opinion non supervisée. Nous présentons ensuite une méthode améliorant les résultats de cette extraction, en suivant une approche semi-supervisée.
pdf
bib
abs
Extraction de Contextes Riches en Connaissances en corpus spécialisés
Firas Hmida
|
Emmanuel Morin
|
Béatrice Daille
Les banques terminologiques et les dictionnaires sont des ressources précieuses qui facilitent l’accès aux connaissances des domaines spécialisés. Ces ressources sont souvent assez pauvres et ne proposent pas toujours pour un terme à illustrer des exemples permettant d’appréhender le sens et l’usage de ce terme. Dans ce contexte, nous proposons de mettre en œuvre la notion de Contextes Riches en Connaissances (CRC) pour extraire directement de corpus spécialisés des exemples de contextes illustrant son usage. Nous définissons un cadre unifié pour exploiter tout à la fois des patrons de connaissances et des collocations avec une qualité acceptable pour une révision humaine.
pdf
bib
abs
Traitement automatique des formes métriques des textes versifiés
Eliane Delente
|
Richard Renault
L’objectif de cet article est de présenter tout d’abord dans ses grandes lignes le projet Anamètre qui a pour objet le traitement automatique des formes métriques de la poésie et du théâtre français du début du XVIIe au début du XXe siècle. Nous présenterons ensuite un programme de calcul automatique des mètres appliqué à notre corpus dans le cadre d’une approche déterministe en nous appuyant sur la méthode métricométrique de B. de Cornulier ainsi que la procédure d’appariement des rimes et la détermination des schémas de strophes dans les suites périodiques et les formes fixes.
pdf
bib
abs
Apprentissage automatique d’un modèle de résolution de la coréférence à partir de données orales transcrites du français : le système CROC
Adèle Désoyer
|
Frédéric Landragin
|
Isabelle Tellier
Cet article présente CROC 1 (Coreference Resolution for Oral Corpus), un premier système de résolution des coréférences en français reposant sur des techniques d’apprentissage automatique. Une des spécificités du système réside dans son apprentissage sur des données exclusivement orales, à savoir ANCOR (anaphore et coréférence dans les corpus oraux), le premier corpus de français oral transcrit annoté en relations anaphoriques. En l’état actuel, le système CROC nécessite un repérage préalable des mentions. Nous détaillons les choix des traits – issus du corpus ou calculés – utilisés par l’apprentissage, et nous présentons un ensemble d’expérimentations avec ces traits. Les scores obtenus sont très proches de ceux de l’état de l’art des systèmes conçus pour l’écrit. Nous concluons alors en donnant des perspectives sur la réalisation d’un système end-to-end valable à la fois pour l’oral transcrit et l’écrit.
pdf
bib
abs
Vers un diagnostic d’ambiguïté des termes candidats d’un texte
Gaël Lejeune
|
Béatrice Daille
Les recherches autour de la désambiguïsation sémantique traitent de la question du sens à accorder à différentes occurrences d’un mot ou plus largement d’une unité lexicale. Dans cet article, nous nous intéressons à l’ambiguïté d’un terme en domaine de spécialité. Nous posons les premiers jalons de nos recherches sur une question connexe que nous nommons le diagnostic d’ambiguïté. Cette tâche consiste à décider si une occurrence d’un terme est ou n’est pas ambiguë. Nous mettons en œuvre une approche d’apprentissage supervisée qui exploite un corpus d’articles de sciences humaines rédigés en français dans lequel les termes ambigus ont été détectés par des experts. Le diagnostic s’appuie sur deux types de traits : syntaxiques et positionnels. Nous montrons l’intérêt de la structuration du texte pour établir le diagnostic d’ambiguïté.
pdf
bib
abs
Augmentation d’index par propagation sur un réseau lexical Application aux comptes rendus de radiologie
Mathieu Lafourcade
|
Lionel Ramadier
Les données médicales étant de plus en plus informatisées, le traitement sémantiquement efficace des rapports médicaux est devenu une nécessité. La recherche d’images radiologiques peut être grandement facilitée grâce à l’indexation textuelle des comptes rendus associés. Nous présentons un algorithme d’augmentation d’index de comptes rendus fondé sur la propagation d’activation sur un réseau lexico-sémantique généraliste.
pdf
bib
abs
Détection automatique de l’ironie dans les tweets en français
Jihen Karoui
|
Farah Benamara Zitoune
|
Véronique Moriceau
|
Nathalie Aussenac-Gilles
|
Lamia Hadrich Belguith
Cet article présente une méthode par apprentissage supervisé pour la détection de l’ironie dans les tweets en français. Un classifieur binaire utilise des traits de l’état de l’art dont les performances sont reconnues, ainsi que de nouveaux traits issus de notre étude de corpus. En particulier, nous nous sommes intéressés à la négation et aux oppositions explicites/implicites entre des expressions d’opinion ayant des polarités différentes. Les résultats obtenus sont encourageants.
pdf
bib
abs
Dictionnaires morphologiques du français contemporain : présentation de Morfetik, éléments d’un modèle pour le TAL
Michel Mathieu-Colas
|
Emmanuel Cartier
|
Aude Grezka
Dans cet article, nous présentons une ressource linguistique, Morfetik, développée au LDI. Après avoir présenté le modèle sous-jacent et spécifié les modalités de sa construction, nous comparons cette ressource avec d’autres ressources du français : le GLAFF, le LEFF, Morphalou et Dicolecte. Nous étudions ensuite la couverture lexicale de ces dictionnaires sur trois corpus, le Wikipedia français, la version française de Wacky et les dix ans du Monde. Nous concluons par un programme de travail permettant de mettre à jour de façon continue la ressource lexicographique du point de vue des formes linguistiques, en connectant la ressource à un corpus continu.
pdf
bib
abs
Une métagrammaire de l’interface morpho-sémantique dans les verbes en arabe
Simon Petitjean
|
Younes Samih
|
Timm Lichte
Dans cet article, nous présentons une modélisation de la morphologie dérivationnelle de l’arabe utilisant le cadre métagrammatical offert par XMG. Nous démontrons que l’utilisation de racines et patrons abstraits comme morphèmes atomiques sous-spécifiés offre une manière élégante de traiter l’interaction entre morphologie et sémantique.
pdf
bib
abs
Création d’un nouveau treebank à partir de quatrièmes de couverture
Philippe Blache
|
Grégoire Moncheuil
|
Stéphane Rauzy
|
Marie-Laure Guénot
Nous présentons ici 4-couv, un nouveau corpus arboré d’environ 3 500 phrases, constitué d’un ensemble de quatrièmes de couverture, étiqueté et analysé automatiquement puis corrigé et validé à la main. Il répond à des besoins spécifiques pour des projets de linguistique expérimentale, et vise à rester compatible avec les autres treebanks existants pour le français. Nous présentons ici le corpus lui-même ainsi que les outils utilisés pour les différentes étapes de son élaboration : choix des textes, étiquetage, parsing, correction manuelle.
pdf
bib
abs
Entre écrit et oral ? Analyse comparée de conversations de type tchat et de conversations téléphoniques dans un centre de contact client
Géraldine Damnati
|
Aleksandra Guerraz
|
Delphine Charlet
Dans cet article nous proposons une première étude descriptive d’un corpus de conversations de type tchat issues d’un centre de contact d’assistance. Les dimensions lexicales, syntaxiques et interactionnelles sont analysées. L’étude parallèle de transcriptions de conversations téléphoniques issues d’un centre d’appel dans le même domaine de l’assistance permet d’établir des comparaisons entre ces deux modes d’interaction. L’analyse révèle des différences marquées en termes de déroulement de la conversation, avec une plus grande efficacité pour les conversations de type tchat malgré un plus grand étalement temporel. L’analyse lexicale et syntaxique révèle également des différences de niveaux de langage avec une plus grande proximité entre le client et le téléconseiller à l’oral que pour les tchats où le décalage entre le style adopté par le téléconseiller et l’expression du client est plus important.
pdf
bib
abs
Construction et maintenance d’une ressource lexicale basées sur l’usage
Laurie Planes
Notre société développe un moteur de recherche (MR) sémantique basé sur la reformulation de requête. Notre MR s’appuie sur un lexique que nous avons construit en nous inspirant de la Théorie Sens-Texte (TST). Nous présentons ici notre ressource lexicale et indiquons comment nous l’enrichissons et la maintenons en fonction des besoins détectés à l’usage. Nous abordons également la question de l’adaptation de la TST à nos besoins.
pdf
bib
abs
Utilisation d’annotations sémantiques pour la validation automatique d’hypothèses dans des conversations téléphoniques
Carole Lailler
|
Yannick Estève
|
Renato De Mori
|
Mohamed Bouallègue
|
Mohamed Morchid
Les travaux présentés portent sur l’extraction automatique d’unités sémantiques et l’évaluation de leur pertinence pour des conversations téléphoniques. Le corpus utilisé est le corpus français DECODA. L’objectif de la tâche est de permettre l’étiquetage automatique en thème de chaque conversation. Compte tenu du caractère spontané de ce type de conversations et de la taille du corpus, nous proposons de recourir à une stratégie semi-supervisée fondée sur la construction d’une ontologie et d’un apprentissage actif simple : un annotateur humain analyse non seulement les listes d’unités sémantiques candidates menant au thème mais étudie également une petite quantité de conversations. La pertinence de la relation unissant les unités sémantiques conservées, le sous-thème issu de l’ontologie et le thème annoté est évaluée par un DNN, prenant en compte une représentation vectorielle du document. L’intégration des unités sémantiques retenues dans le processus de classification en thème améliore les performances.
pdf
bib
abs
Etiquetage morpho-syntaxique en domaine de spécialité: le domaine médical
Christelle Rabary
|
Thomas Lavergne
|
Aurélie Névéol
L’étiquetage morpho-syntaxique est une tâche fondamentale du Traitement Automatique de la Langue, sur laquelle reposent souvent des traitements plus complexes tels que l’extraction d’information ou la traduction automatique. L’étiquetage en domaine de spécialité est limité par la disponibilité d’outils et de corpus annotés spécifiques au domaine. Dans cet article, nous présentons le développement d’un corpus clinique du français annoté morpho-syntaxiquement à l’aide d’un jeu d’étiquettes issus des guides d’annotation French Treebank et Multitag. L’analyse de ce corpus nous permet de caractériser le domaine clinique et de dégager les points clés pour l’adaptation d’outils d’analyse morpho-syntaxique à ce domaine. Nous montrons également les limites d’un outil entraîné sur un corpus journalistique appliqué au domaine clinique. En perspective de ce travail, nous envisageons une application du corpus clinique annoté pour améliorer l’étiquetage morpho-syntaxique des documents cliniques en français.
pdf
bib
abs
Vers une typologie de liens entre contenus journalistiques
Remi Bois
|
Guillaume Gravier
|
Emmanuel Morin
|
Pascale Sébillot
Nous présentons une typologie de liens pour un corpus multimédia ancré dans le domaine journalistique. Bien que plusieurs typologies aient été créées et utilisées par la communauté, aucune ne permet de répondre aux enjeux de taille et de variété soulevés par l’utilisation d’un corpus large comprenant des textes, des vidéos, ou des émissions radiophoniques. Nous proposons donc une nouvelle typologie, première étape visant à la création et la catégorisation automatique de liens entre des fragments de documents afin de proposer de nouveaux modes de navigation au sein d’un grand corpus. Plusieurs exemples d’instanciation de la typologie sont présentés afin d’illustrer son intérêt.
pdf
bib
abs
CDGFr, un corpus en dépendances non-projectives pour le français
Denis Béchet
|
Ophélie Lacroix
Dans le cadre de l’analyse en dépendances du français, le phénomène de la non-projectivité est peu pris en compte, en majeure partie car les donneés sur lesquelles sont entraînés les analyseurs représentent peu ou pas ces cas particuliers. Nous présentons, dans cet article, un nouveau corpus en dépendances pour le français, librement disponible, contenant un nombre substantiel de dépendances non-projectives. Ce corpus permettra d’étudier et de mieux prendre en compte les cas de non-projectivité dans l’analyse du français.
pdf
bib
abs
Utilisation des réseaux de neurones récurrents pour la projection interlingue d’étiquettes morpho-syntaxiques à partir d’un corpus parallèle
Othman Zennaki
|
Nasredine Semmar
|
Laurent Besacier
La construction d’outils d’analyse linguistique pour les langues faiblement dotées est limitée, entre autres, par le manque de corpus annotés. Dans cet article, nous proposons une méthode pour construire automatiquement des outils d’analyse via une projection interlingue d’annotations linguistiques en utilisant des corpus parallèles. Notre approche n’utilise pas d’autres sources d’information, ce qui la rend applicable à un large éventail de langues peu dotées. Nous proposons d’utiliser les réseaux de neurones récurrents pour projeter les annotations d’une langue à une autre (sans utiliser d’information d’alignement des mots). Dans un premier temps, nous explorons la tâche d’annotation morpho-syntaxique. Notre méthode combinée avec une méthode de projection d’annotation basique (utilisant l’alignement mot à mot), donne des résultats comparables à ceux de l’état de l’art sur une tâche similaire.
pdf
bib
abs
Segmentation et Titrage Automatique de Journaux Télévisés
Abdessalam Bouchekif
|
Géraldine Damnati
|
Nathalie Camelin
|
Yannick Estève
|
Delphine Charlet
Dans cet article, nous nous intéressons au titrage automatique des segments issus de la segmentation thématique de journaux télévisés. Nous proposons d’associer un segment à un article de presse écrite collecté le jour même de la diffusion du journal. La tâche consiste à apparier un segment à un article de presse à l’aide d’une mesure de similarité. Cette approche soulève plusieurs problèmes, comme la sélection des articles candidats, une bonne représentation du segment et des articles, le choix d’une mesure de similarité robuste aux imprécisions de la segmentation. Des expériences sont menées sur un corpus varié de journaux télévisés français collectés pendant une semaine, conjointement avec des articles aspirés à partir de la page d’accueil de Google Actualités. Nous introduisons une métrique d’évaluation reflétant la qualité de la segmentation, du titrage ainsi que la qualité conjointe de la segmentation et du titrage. L’approche donne de bonnes performances et se révèle robuste à la segmentation thématique.
pdf
bib
abs
Un système hybride pour l’analyse de sentiments associés aux aspects
Caroline Brun
|
Diana Nicoleta Popa
|
Claude Roux
Cet article présente en détails notre participation à la tâche 4 de SemEval2014 (Analyse de Sentiments associés aux Aspects). Nous présentons la tâche et décrivons précisément notre système qui consiste en une combinaison de composants linguistiques et de modules de classification. Nous exposons ensuite les résultats de son évaluation, ainsi que les résultats des meilleurs systèmes. Nous concluons par la présentation de quelques nouvelles expériences réalisées en vue de l’amélioration de ce système.
pdf
bib
abs
La ressource EXPLICADIS, un corpus annoté spécifiquement pour l’étude des relations de discours causales
Caroline Atallah
Dans le but de proposer une caractérisation des relations de discours liées à la causalité, nous avons été amenée à constituer et annoter notre propre corpus d’étude : la ressource EXPLICADIS (EXPlication et Argumentation en DIScours). Cette ressource a été construite dans la continuité d’une ressource déjà disponible, le corpus ANNODIS. Proposant une annotation plus précise des relations causales sur un ensemble de textes diversifiés en genres textuels, EXPLICADIS est le premier corpus de ce type constitué spécifiquement pour l’étude des relations de discours causales.
pdf
bib
abs
La séparation des composantes lexicale et flexionnelle des vecteurs de mots
François Lareau
|
Gabriel Bernier-Colborne
|
Patrick Drouin
En sémantique distributionnelle, le sens des mots est modélisé par des vecteurs qui représentent leur distribution en corpus. Les modèles étant souvent calculés sur des corpus sans pré-traitement linguistique poussé, ils ne permettent pas de rendre bien compte de la compositionnalité morphologique des mots-formes. Nous proposons une méthode pour décomposer les vecteurs de mots en vecteurs lexicaux et flexionnels.
pdf
bib
abs
Traitements pour l’analyse du français préclassique
Sascha Diwersy
|
Achille Falaise
|
Marie-Hélène Lay
|
Gilles Souvay
La période préclassique du français s’étend sur tout le XVIe siècle et la première moitié du XVIIe siècle. Cet état de langue écrite, qui accompagne les débuts de l’imprimerie, est relativement proche du français moderne, mais se caractérise par une grande variabilité graphique. Il s’agit de l’un des moins bien dotés en termes de ressources. Nous présentons ici la construction d’un lexique, d’un corpus d’apprentissage et d’un modèle de langage pour la période préclassique, à partir de ressources du français moderne.
pdf
bib
abs
Classification de texte enrichie à l’aide de motifs séquentiels
Pierre Holat
|
Nadi Tomeh
|
Thierry Charnois
En classification de textes, la plupart des méthodes fondées sur des classifieurs statistiques utilisent des mots, ou des combinaisons de mots contigus, comme descripteurs. Si l’on veut prendre en compte plus d’informations le nombre de descripteurs non contigus augmente exponentiellement. Pour pallier à cette croissance, la fouille de motifs séquentiels permet d’extraire, de façon efficace, un nombre réduit de descripteurs qui sont à la fois fréquents et pertinents grâce à l’utilisation de contraintes. Dans ce papier, nous comparons l’utilisation de motifs fréquents sous contraintes et l’utilisation de motifs -libres, comme descripteurs. Nous montrons les avantages et inconvénients de chaque type de motif.
pdf
bib
abs
Le traitement des collocations en génération de texte multilingue
Florie Lambrey
|
François Lareau
Pour concevoir des générateurs automatiques de texte génériques qui soient facilement réutilisables d’une langue et d’une application à l’autre, il faut modéliser les principaux phénomènes linguistiques qu’on retrouve dans les langues en général. Un des phénomènes fondamentaux qui demeurent problématiques pour le TAL est celui des collocations, comme grippe carabinée, peur bleue ou désir ardent, où un sens (ici, l’intensité) ne s’exprime pas de la même façon selon l’unité lexicale qu’il modifie. Dans la lexicographie explicative et combinatoire, on modélise les collocations au moyen de fonctions lexicales qui correspondent à des patrons récurrents de collocations. Par exemple, les expressions mentionnées ici se décrivent au moyen de la fonction Magn : Magn(PEUR) = BLEUE, Magn(GRIPPE) = CARABINÉE, etc. Il existe des centaines de fonctions lexicales. Dans cet article, nous nous intéressons à l’implémentation d’un sous-ensemble de fonctions qui décrivent les verbes supports et certains types de modificateurs.
pdf
bib
abs
Médicaments qui soignent, médicaments qui rendent malades : étude des relations causales pour identifier les effets secondaires
François Morlane-Hondère
|
Cyril Grouin
|
Véronique Moriceau
|
Pierre Zweigenbaum
Dans cet article, nous nous intéressons à la manière dont sont exprimés les liens qui existent entre un traitement médical et un effet secondaire. Parce que les patients se tournent en priorité vers internet, nous fondons cette étude sur un corpus annoté de messages issus de forums de santé en français. L’objectif de ce travail consiste à mettre en évidence des éléments linguistiques (connecteurs logiques et expressions temporelles) qui pourraient être utiles pour des systèmes automatiques de repérage des effets secondaires. Nous observons que les modalités d’écriture sur les forums ne permettent pas de se fonder sur les expressions temporelles. En revanche, les connecteurs logiques semblent utiles pour identifier les effets secondaires.
pdf
bib
abs
Exploration de modèles distributionnels au moyen de graphes 1-PPV
Gabriel Bernier-Colborne
Dans cet article, nous montrons qu’un graphe à 1 plus proche voisin (graphe 1-PPV) offre différents moyens d’explorer les voisinages sémantiques captés par un modèle distributionnel. Nous vérifions si les composantes connexes de ce graphe, qui représentent des ensembles de mots apparaissant dans des contextes similaires, permettent d’identifier des ensembles d’unités lexicales qui évoquent un même cadre sémantique. Nous illustrons également différentes façons d’exploiter le graphe 1-PPV afin d’explorer un modèle ou de comparer différents modèles.
pdf
bib
abs
Apport de l’information temporelle des contextes pour la représentation vectorielle continue des mots
Killian Janod
|
Mohamed Morchid
|
Richard Dufour
|
Georges Linares
Les représentations vectorielles continues des mots sont en plein essor et ont déjà été appliquées avec succès à de nombreuses tâches en traitement automatique de la langue (TAL). Dans cet article, nous proposons d’intégrer l’information temporelle issue du contexte des mots au sein des architectures fondées sur les sacs-de-mots continus (continuous bag-of-words ou CBOW) ou sur les Skip-Grams. Ces approches sont manipulées au travers d’un réseau de neurones, l’architecture CBOW cherchant alors à prédire un mot sachant son contexte, alors que l’architecture Skip-Gram prédit un contexte sachant un mot. Cependant, ces modèles, au travers du réseau de neurones, s’appuient sur des représentations en sac-de-mots et ne tiennent pas compte, explicitement, de l’ordre des mots. En conséquence, chaque mot a potentiellement la même influence dans le réseau de neurones. Nous proposons alors une méthode originale qui intègre l’information temporelle des contextes des mots en utilisant leur position relative. Cette méthode s’inspire des modèles contextuels continus. L’information temporelle est traitée comme coefficient de pondération, en entrée du réseau de neurones par le CBOW et dans la couche de sortie par le Skip-Gram. Les premières expériences ont été réalisées en utilisant un corpus de test mesurant la qualité de la relation sémantique-syntactique des mots. Les résultats préliminaires obtenus montrent l’apport du contexte des mots, avec des gains de 7 et 7,7 points respectivement avec l’architecture Skip-Gram et l’architecture CBOW.
pdf
bib
abs
Etiquetage morpho-syntaxique de tweets avec des CRF
Tian Tian
|
Dinarelli Marco
|
Tellier Isabelle
|
Cardoso Pedro
Nous nous intéressons dans cet article à l’apprentissage automatique d’un étiqueteur mopho-syntaxique pour les tweets en anglais. Nous proposons tout d’abord un jeu d’étiquettes réduit avec 17 étiquettes différentes, qui permet d’obtenir de meilleures performances en exactitude par rapport au jeu d’étiquettes traditionnel qui contient 45 étiquettes. Comme nous disposons de peu de tweets étiquetés, nous essayons ensuite de compenser ce handicap en ajoutant dans l’ensemble d’apprentissage des données issues de textes bien formés. Les modèles mixtes obtenus permettent d’améliorer les résultats par rapport aux modèles appris avec un seul corpus, qu’il soit issu de Twitter ou de textes journalistiques.
pdf
bib
abs
Caractériser les discours académiques et de vulgarisation : quelles propriétés ?
Amalia Todirascu
|
Beatriz Sanchez Cardenas
L’article présente une étude des propriétés linguistiques (lexicales, morpho-syntaxiques, syntaxiques) permettant la classification automatique de documents selon leur genre (articles scientifiques et articles de vulgarisation), dans deux domaines différentes (médecine et informatique). Notre analyse, effectuée sur des corpus comparables en genre et en thèmes disponibles en français, permet de valider certaines propriétés identifiées dans la littérature comme caractéristiques des discours académiques ou de vulgarisation scientifique. Les premières expériences de classification évaluent l’influence de ces propriétés pour l’identification automatique du genre pour le cas spécifique des textes scientifiques ou de vulgarisation.
pdf
bib
abs
Extraction et analyse automatique des comparaisons et des pseudo-comparaisons pour la détection des comparaisons figuratives
Suzanne Mpouli
|
Jean-Gabriel Ganascia
Le présent article s’intéresse à la détection et à la désambiguïsation des comparaisons figuratives. Il décrit un algorithme qui utilise un analyseur syntaxique de surface (chunker) et des règles manuelles afin d’extraire et d’analyser les (pseudo-)comparaisons présentes dans un texte. Cet algorithme, évalué sur un corpus de textes littéraires, donne de meilleurs résultats qu’un système reposant sur une analyse syntaxique profonde.
pdf
bib
abs
Proposition méthodologique pour la détection automatique de Community Manager. Étude multilingue sur un corpus relatif à la Junk Food
Johan Ferguth
|
Aurélie Jouannet
|
Asma Zamiti
|
Yunhe Wu
|
Jia Li
|
Antonina Bondarenko
|
Damien Nouvel
|
Mathieu Valette
Dans cet article, nous présentons une méthodologie pour l’identification de messages suspectés d’être produits par des Community Managers à des fins commerciales déguisées dans des documents du Web 2.0. Le champ d’application est la malbouffe (junkfood) et le corpus est multilingue (anglais, chinois, français). Nous exposons dans un premier temps la stratégie de constitution et d’annotation de nos corpus, en explicitant notamment notre guide d’annotation, puis nous développons la méthode adoptée, basée sur la combinaison d’une analyse textométrique et d’un apprentissage supervisé.
uppdf
bib
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Jean-Marc Lecarpentier
|
Nadine Lucas
pdf
bib
abs
MEDITE : logiciel d’alignement de textes pour l’étude de la génétique textuelle
Zied Sellami
|
Jean-Gabriel Ganascia
|
Mohamed Amine Boukhaled
MEDITE est un logiciel d’alignement de textes permettant l’identification de transformations entre une version et une autre d’un même texte. Dans ce papier nous présentons les aspects théoriques et techniques de MEDITE.
pdf
bib
abs
Phœbus : un Logiciel d’Extraction de Réutilisations dans des Textes Littéraires
Mohamed Amine Boukhaled
|
Zied Sellami
|
Jean-Gabriel Ganascia
Phœbus est un logiciel d’extraction de réutilisations dans des textes littéraires. Il a été développé comme un outil d’analyse littéraire assistée par ordinateur. Dans ce contexte, ce logiciel détecte automatiquement et explore des réseaux de réutilisation textuelle dans la littérature classique.
pdf
bib
abs
YADTK : Une plateforme open-source à base de règles pour développer des systèmes de dialogue oral
Jérôme Lehuen
|
Carole Lailler
|
Julien Stenzhorn
YADTK est une plateforme open-source pour développer des systèmes de dialogue oral. De part son caractère déclaratif et unifié, le modèle de représentation des connaissances permet un développement rapide et facilité.
pdf
bib
abs
TermLis : un contexte d’information logique pour des ressources terminologiques
Annie Foret
Nous présentons TermLis un contexte d’information logique construit à partir de ressources terminologiques disponibles en xml (FranceTerme), pour une utilisation flexible avec un logiciel de contexte logique (CAMELIS). Une vue en contexte logique permet d’explorer des informations de manière flexible, sans rédaction de requête a priori, et d’obtenir aussi des indications sur la qualité des données. Un tel contexte peut être enrichi par d’autres informations (de natures diverses), mais aussi en le reliant à d’autres applications (par des actions associées selon des arguments fournis par le contexte). Nous montrons comment utiliser TermLis et nous illustrons, à travers cette réalisation concrète sur des données de FranceTerme, les avantages d’une telle approche pour des données terminologiques.
pdf
bib
abs
Etude de l’image de marque d’entités dans le cadre d’une plateforme de veille sur le Web social
Leila Khouas
|
Caroline Brun
|
Anne Peradotto
|
Jean-Valère Cossu
|
Julien Boyadjian
|
Julien Velcin
Ce travail concerne l’intégration à une plateforme de veille sur internet d’outils permettant l’analyse des opinions émises par les internautes à propos d’une entité, ainsi que la manière dont elles évoluent dans le temps. Les entités considérées peuvent être des personnes, des entreprises, des marques, etc. Les outils implémentés sont le produit d’une collaboration impliquant plusieurs partenaires industriels et académiques dans le cadre du projet ANR ImagiWeb.
pdf
bib
abs
Building a Bilingual Vietnamese-French Named Entity Annotated Corpus through Cross-Linguistic Projection
Ngoc Tan Le
|
Fatiha Sadat
The creation of high-quality named entity annotated resources is time-consuming and an expensive process. Most of the gold standard corpora are available for English but not for less-resourced languages such as Vietnamese. In Asian languages, this task is remained problematic. This paper focuses on an automatic construction of named entity annotated corpora for Vietnamese-French, a less-resourced pair of languages. We incrementally apply different cross-projection methods using parallel corpora, such as perfect string matching and edit distance similarity. Evaluations on Vietnamese –French pair of languages show a good accuracy (F-score of 94.90%) when identifying named entities pairs and building a named entity annotated parallel corpus.
pdf
bib
abs
Recherche de motifs de graphe en ligne
Bruno Guillaume
Nous présentons un outil en ligne de recherche de graphes dans des corpus annotés en syntaxe.
pdf
bib
abs
Un patient virtuel dialogant
Leonardo Campillos
|
Dhouha Bouamor
|
Éric Bilinski
|
Anne-Laure Ligozat
|
Pierre Zweigenbaum
|
Sophie Rosset
Le démonstrateur que nous décrivons ici est un prototype de système de dialogue dont l’objectif est de simuler un patient. Nous décrivons son fonctionnement général en insistant sur les aspects concernant la langue et surtout le rapport entre langue médicale de spécialité et langue générale.
pdf
bib
abs
Intégration du corpus des actes de TALN à la plateforme ScienQuest
Achille Falaise
Cette démonstration présente l’intégration du corpus arboré des Actes de TALN à la plateforme ScienQuest. Cette plateforme fut initialement créée pour l’étude du corpus de textes scientifiques Scientext. Cette intégration tient compte des métadonnées propres au corpus TALN, et a été effectuée en s’efforçant de rapprocher les jeux d’étiquettes de ces deux corpus, et en convertissant pour le corpus TALN les requêtes prédéfinies conçues pour le corpus Scientext, de manière à permettre d’effectuer facilement des recherches similaires sur les deux corpus.
pdf
bib
abs
Une aide à la communication par pictogrammes avec prédiction sémantique
Aurélie Merlo
Cette démonstration présente une application mobile (pour tablette et smartphone) pour des personnes souffrant de troubles du langage et/ou de la parole permettant de générer des phrases à partir de la combinaison de pictogrammes puis de verbaliser le texte généré en Text-To-Speech (TTS). La principale critique adressée par les patients utilisant les solutions existantes est le temps de composition trop long d’une phrase. Cette limite ne permet pas ou très difficilement d’utiliser les solutions actuelles en condition dialogique. Pour pallier cela, nous avons développé un moteur de génération de texte avec prédiction sémantique ne proposant à l’utilisateur que les pictogrammes pertinents au regard de la saisie en cours (e.g. après le pictogramme [manger], l’application propose les pictogrammes [pomme] ou encore [viande] correspondant à des concepts comestibles). Nous avons ainsi multiplié de 5 à 10 la vitesse de composition d’une phrase par rapport aux solutions existantes.
pdf
bib
abs
Un système expert fondé sur une analyse sémantique pour l’identification de menaces d’ordre biologique
Cédric Lopez
|
Aleksandra Ponomareva
|
Cécile Robin
|
André Bittar
|
Xabier Larrucea
|
Frédérique Segond
|
Marie-Hélène Metzger
Le projet européen TIER (Integrated strategy for CBRN – Chemical, Biological, Radiological and Nuclear – Threat Identification and Emergency Response) vise à intégrer une stratégie complète et intégrée pour la réponse d’urgence dans un contexte de dangers biologiques, chimiques, radiologiques, nucléaires, ou liés aux explosifs, basée sur l’identification des menaces et d’évaluation des risques. Dans cet article, nous nous focalisons sur les risques biologiques. Nous présentons notre système expert fondé sur une analyse sémantique, permettant l’extraction de données structurées à partir de données non structurées dans le but de raisonner.
pdf
bib
abs
DisMo : un annotateur multi-niveaux pour les corpus oraux
George Christodoulides
|
Giulia Barreca
|
Mathieu Avanzi
Dans cette démonstration, nous présentons l’annotateur multi-niveaux DisMo, un outil conçu pour faire face aux spécificités des corpus oraux. Il fournit une annotation morphosyntaxique, une lemmatisation, une détection des unités poly-lexicales, une détection des phénomènes de disfluence et des marqueurs de discours.