Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume III : RECITAL

Emmanuel Morin, Sophie Rosset, Pierre Zweigenbaum (Editors)


Anthology ID:
2019.jeptalnrecital-recital
Month:
7
Year:
2019
Address:
Toulouse, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
URL:
https://aclanthology.org/2019.jeptalnrecital-recital
DOI:
Bib Export formats:
BibTeX MODS XML EndNote

pdf bib
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume III : RECITAL
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum

pdf bib
Adaptation d’une métagrammaire du français contemporain au français médiéval (Adapting an existing metagrammar for Contemporary French to Medieval French)
Mathilde Regnault

Le français médiéval se caractérise par une importante variabilité langagière. Nous cherchons à étendre un corpus d’ancien français annoté en syntaxe de dépendance avec de nouveaux textes de cette période et de moyen français. Pour cela, nous voulons adapter des outils existants et non entraîner un parser avec des données annotées. Dans cet article, nous présentons un état de l’art pour ce projet et notre démarche : adapter FRMG (French Metagrammar) à des états de langue antérieurs.

pdf bib
Apport des termes complexes pour enrichir l’analyse distributionnelle en domaine spécialisé (Multi-words terms impact in improving domain-specific distributed representations )
Merieme Bouhandi

L’essor et les performances des modèles de sémantique distributionnelle sont principalement dus à l’accroissement de la quantité de données textuelles disponibles ainsi qu’à la généralisation des méthodes neuronales pour la construction de ces modèles. La qualité des représentations distribuées est souvent corrélée à la quantité de données disponibles et les corpus spécialisés, généralement d’une taille modeste, se trouvent de ce fait pénalisés. Alors que la plupart des modèles de sémantique distributionnelle traitent de mots isolés, nous partons de l’hypothèse que l’exploitation des termes, notamment complexes, est essentielle notamment en langue de spécialité car ils sont porteurs d’une dimension sémantique supplémentaire. Ainsi, nous évaluons une méthode de généralisation des contextes distributionnels par un mécanisme d’inclusion lexicale reposant sur les termes complexes. Nos différentes représentations distributionnelles sont ensuite confrontées à une tâche d’extraction de concepts médicaux à partir des rapports médicaux proposée par l’édition 2010 du challenge i2b2.

pdf bib
Automatic summarization of medical conversations, a review
Jessica López Espejel

ion et pour l’analyse du dialogue. Nous décrivons aussi les utilisation du Traitement Automatique des Langues dans le domaine médical. A BSTRACT Conversational analysis plays an important role in the development of simulation devices for the training of health professionals (doctors, nurses). Our goal is to develop an original automatic synthesis method for medical conversations between a patient and a healthcare professional, based on recent advances in summarization using convolutional and recurrent neural networks. The proposed method must be adapted to the specific problems related to the synthesis of dialogues. This article presents a review of the different methods for extractive and abstractive summarization, and for dialogue analysis. We also describe the use of Natural Language Processing in the medical field.

pdf bib
Détection automatique de chaînes de coréférence pour le français écrit: règles et ressources adaptées au repérage de phénomènes linguistiques spécifiques (Automatic coreference resolution for written French : rules and resources for specific linguistic phenomena)
Bruno Oberle

Nous présentons un système end-to-end de détection automatique des chaînes de coréférence, à base de règles, pour le français écrit. Ce système insiste sur la prise en compte de phénomènes linguistiques négligés par d’autres systèmes. Nous avons élaboré des ressources lexicales pour la résolution des anaphores infidèles (Mon chat... Cet animal...), notamment lorsqu’elles incluent une entité nommée (La Seine... Ce fleuve...). Nous utilisons également des règles pour le repérage de mentions de groupes (Pierre et Paul) et d’anaphores zéros (Pierre boit et ø fume), ainsi que des règles pour la détection des pronoms de première et deuxième personnes dans les citations (Paul a dit : “Je suis étudiant.”). L’article présente l’élaboration des ressources et règles utilisées pour la gestion de ces phénomènes spécifiques, avant de décrire le système dans son ensemble, et notamment les différentes phases de la résolution de la coréférence.

pdf bib
Etat de l’art des méthodes d’apprentissage profond pour l’extraction automatique de termes-clés (State of the art of deep learning methods for automatic keyphrase extraction )
Ygor Gallina

Les termes-clés facilitent la recherche de documents dans de larges collections de données. Le coût d’annotation de document en termes-clés très élevé, c’est pourquoi les chercheurs s’intéressent à cette problématique. Dans cet article nous présentons un état de l’art sur l’extraction automatique de termes-clés en nous intéressant particulièrement aux modèles d’apprentissage profond. En effet, la récente publication d’un demi-million de documents annotés à permis le développement de modèles neuronaux profonds.

pdf bib
Extraction d’opinions pour l’analyse multicritère à partir de corpus oraux transcrits : État de l’art (Opinion extraction for multi-criteria analysis of transcribed oral corpora)
Emmanuelle Kelodjoue

Cet article présente une revue de la littérature dans les domaines de l’analyse de sentiments et du résumé automatique appliqués aux corpus oraux transcrits. Peu de travaux ont été réalisés dans ces deux domaines avec des corpus oraux transcrits. C’est pourquoi nous présentons ci-dessous les tendances générales dans ces deux domaines et nous nous concentrons ensuite sur les systèmes développés pour le traitement de ce type de données. Les méthodes supervisées pour l’analyse de sentiments et les méthodes extractives pour le résumé automatique sont actuellement dominantes dans le développement des systèmes automatiques pour le traitement des corpus oraux transcrits. Le présent article est une vue d’ensemble de l’état de l’art en analyse de sentiments et du résumé automatique appliqués à des corpus oraux transcrits pour une aide à l’analyse des verbatim.

pdf bib
Les systèmes de dialogue orientés-but : état de l’art et perspectives d’amélioration (Goal-oriented dialog systems : a recent overview and research prospects )
Léon-Paul Schaub | Cyndel Vaudapiviz

La gestion et la sélection des informations pertinentes pour un tour de parole donné restent un problème pour les systèmes de dialogue à domaine ouvert. Pour ces derniers, les interactions possibles entre un utilisateur et un agent sont a priori infinies et indéfinies. La possibilité d’une réponse erronée de l’agent à l’utilisateur demeure donc élevée. Pour les systèmes orientés-but, le problème est considéré comme résolu, mais d’après notre expérience aucun système ne montre une robustesse remarquable lorsqu’il est évalué en situation réelle. Dans cet article, nous dressons un état de l’art des méthodes d’apprentissage de l’agent et des différents modèles d’agent conversationnel. Selon nous, l’une des pistes d’amélioration de l’agent réside dans sa mémoire, car cette dernière (souvent représentée par le triplet : tour de parole courant, historique du dialogue et base de connaissances) n’est pas encore modélisée avec assez de précision. En dotant l’agent d’un modèle de mémoire d’inspiration cognitive, nous pensons pouvoir augmenter les performances d’un système de dialogue orienté-but en situation réelle, par l’emploi d’algorithmes d’apprentissage automatique avec une approche antagoniste en support d’un nouveau modèle de mémoire pour l’agent.

pdf bib
Lifelong learning et systèmes de dialogue : définition et perspectives (Lifelong learning and dialogue system : definition and discussion )
Mathilde Veron

Le but de cet article est de définir comment le Lifelong Learning (LL) pourrait être appliqué aux systèmes de dialogue orientés tâche. Un système de dialogue devrait être en mesure d’apprendre de nouvelles connaissances, après avoir été déployé, et ceci de manière continue grâce à ses interactions avec l’utilisateur. Nous identifions ainsi deux aspects s’appliquant à un tel système : l’amélioration de ses capacités conversationnelles, et l’enrichissement de sa base de connaissances. Nous appliquons ces idées à un chatbot développé dans le cadre du projet LIHLITH. Nous montrons ainsi qu’un tel système doit être capable (1) de détecter la présence d’une situation inconnue (2) de décider quand et comment interagir avec l’utilisateur afin d’extraire de nouvelles connaissances et (3) de s’adapter à ces nouvelles connaissances, tout en considérant la fiabilité de celles-ci.

pdf bib
Méthodes de représentation de la langue pour l’analyse syntaxique multilingue (Language representation methods for multilingual syntactic parsing )
Manon Scholivet

L’existence de modèles universels pour décrire la syntaxe des langues a longtemps été débattue. L’apparition de ressources comme le World Atlas of Language Structures et les corpus des Universal Dependencies rend possible l’étude d’une grammaire universelle pour l’analyse syntaxique en dépendances. Notre travail se concentre sur l’étude de différentes représentations des langues dans des systèmes multilingues appris sur des corpus arborés de 37 langues. Nos tests d’analyse syntaxique montrent que représenter la langue dont est issu chaque mot permet d’obtenir de meilleurs résultats qu’en cas d’un apprentissage sur une simple concaténation des langues. En revanche, l’utilisation d’un vecteur pour représenter la langue ne permet pas une amélioration évidente des résultats dans le cas d’une langue n’ayant pas du tout de données d’apprentissage.

pdf bib
Parsing des textes journalistiques en serbe à l’aide du logiciel Talismane (Parsing of newspaper texts in Serbian using Talismane)
Dusica Terzic

Cet article présente la création d’un treebank journalistique serbe, ParCoJour. Il est composé de 30K tokens et doté de trois couches d’annotation : étiquetage morphosyntaxique, lemmatisation et annotation syntaxique. Une fois construit, ParCoJour a été utilisé dans trois expériences afin d’évaluer l’impact du domaine textuel sur le parsing du serbe en comparant les performances de Talismane, un système par apprentissage automatique, sur deux types de corpus, journalistique et littéraire : 1) parsing du corpus journalistique avec un modèle entraîné sur le corpus journalistique ; 2) parsing du corpus journalistique avec un modèle entraîné sur le corpus littéraire ; 3) parsing du corpus littéraire avec un modèle entraîné sur le corpus journalistique. Les résultats sont comparés à ceux où les deux corpus relevaient du domaine littéraire. Le changement de domaine textuel dans la deuxième et la troisième expérience entraîne une baisse des performances, mais les résultats de parsing restent satisfaisants.

pdf bib
Vers la traduction automatique d’adverbiaux temporels du français vers la langue des signes française (Towards the automatic translation of temporal adverbials from French to French sign language)
Sandra Bellato

Nous présentons ici de premiers travaux abordant la question de règles de passage entre deux formalismes décrivant la sémantique d’adverbiaux temporels respectivement pour le français et pour la Langue des Signes Française (LSF). Ces travaux prennent place dans une visée de traduction automatique d’une langue vers l’autre. Nous nous appuyons sur un corpus rassemblant 95 adverbiaux temporels du français traduits par trois locuteurs de la LSF.