pdf
bib
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles
Christophe Benzitoun
|
Chloé Braud
|
Laurine Huber
|
David Langlois
|
Slim Ouni
|
Sylvain Pogodalla
|
Stéphane Schneider
pdf
bib
abs
Approche de génération de réponse à base de transformers (Transformer based approach for answer generation)
Imen Akermi
|
Johannes Heinecke
|
Frédéric Herledan
Cet article présente une approche non-supervisée basée sur les modèles Transformer pour la génération du langage naturel dans le cadre des systèmes de question-réponse. Cette approche permettrait de remédier à la problématique de génération de réponse trop courte ou trop longue sans avoir recours à des données annotées. Cette approche montre des résultats prometteurs pour l’anglais et le français.
pdf
bib
abs
Investigation par méthodes d’apprentissage des spécificités langagières propres aux personnes avec schizophrénie (Investigating Learning Methods Applied to Language Specificity of Persons with Schizophrenia)
Maxime Amblard
|
Chloé Braud
|
Chuyuan Li
|
Caroline Demily
|
Nicolas Franck
|
Michel Musiol
Nous présentons des expériences visant à identifier automatiquement des patients présentant des symptômes de schizophrénie dans des conversations contrôlées entre patients et psychothérapeutes. Nous fusionnons l’ensemble des tours de parole de chaque interlocuteur et entraînons des modèles de classification utilisant des informations lexicales, morphologiques et syntaxiques. Cette étude est la première du genre sur le français et obtient des résultats comparables à celles sur l’anglais. Nos premières expériences tendent à montrer que la parole des personnes avec schizophrénie se distingue de celle des témoins : le meilleur modèle obtient une exactitude de 93,66%. Des informations plus riches seront cependant nécessaires pour parvenir à un modèle robuste.
pdf
bib
abs
Classification de relations pour l’intelligence économique et concurrentielle (Relation Classification for Competitive and Economic Intelligence )
Hadjer Khaldi
|
Amine Abdaoui
|
Farah Benamara
|
Grégoire Sigel
|
Nathalie Aussenac-Gilles
L’extraction de relations reliant des entités par des liens sémantiques à partir de texte a fait l’objet de nombreux travaux visant à extraire des relations génériques comme l’hyperonymie ou spécifiques comme des relations entre gènes et protéines. Dans cet article, nous nous intéressons aux relations économiques entre deux entités nommées de type organisation à partir de textes issus du web. Ce type de relation, encore peu étudié dans la littérature, a pour but l’identification des liens entre les acteurs d’un secteur d’activité afin d’analyser leurs écosystèmes économiques. Nous présentons B IZ R EL, le premier corpus français annoté en relations économiques, ainsi qu’une approche supervisée à base de différentes architectures neuronales pour la classification de ces relations. L’évaluation de ces modèles montre des résultats très encourageants, ce qui est un premier pas vers l’intelligence économique et concurrentielle à partir de textes pour le français.
pdf
bib
abs
Représentation dynamique et spécifique du contexte textuel pour l’extraction d’événements (Dynamic and specific textual context representation for event extraction)
Dorian Kodelja
|
Romaric Besançon
|
Olivier Ferret
Dans cet article, focalisé sur l’extraction supervisée de mentions d’événements dans les textes, nous proposons d’étendre un modèle opérant au niveau phrastique et reposant sur une architecture neuronale de convolution de graphe exploitant les dépendances syntaxiques. Nous y intégrons pour ce faire un contexte plus large au travers de la représentation de phrases distantes sélectionnées sur la base de relations de coréférence entre entités. En outre, nous montrons l’intérêt d’une telle intégration au travers d’évaluations menées sur le corpus de référence TAC Event 2015.
pdf
bib
abs
Les modèles de langue contextuels Camembert pour le français : impact de la taille et de l’hétérogénéité des données d’entrainement (C AMEM BERT Contextual Language Models for French: Impact of Training Data Size and Heterogeneity )
Louis Martin
|
Benjamin Muller
|
Pedro Javier Ortiz Suárez
|
Yoann Dupont
|
Laurent Romary
|
Éric Villemonte de la Clergerie
|
Benoît Sagot
|
Djamé Seddah
Les modèles de langue neuronaux contextuels sont désormais omniprésents en traitement automatique des langues. Jusqu’à récemment, la plupart des modèles disponibles ont été entraînés soit sur des données en anglais, soit sur la concaténation de données dans plusieurs langues. L’utilisation pratique de ces modèles — dans toutes les langues sauf l’anglais — était donc limitée. La sortie récente de plusieurs modèles monolingues fondés sur BERT (Devlin et al., 2019), notamment pour le français, a démontré l’intérêt de ces modèles en améliorant l’état de l’art pour toutes les tâches évaluées. Dans cet article, à partir d’expériences menées sur CamemBERT (Martin et al., 2019), nous montrons que l’utilisation de données à haute variabilité est préférable à des données plus uniformes. De façon plus surprenante, nous montrons que l’utilisation d’un ensemble relativement petit de données issues du web (4Go) donne des résultats aussi bons que ceux obtenus à partir d’ensembles de données plus grands de deux ordres de grandeurs (138Go).
pdf
bib
abs
Génération automatique de définitions pour le français (Definition Modeling in French)
Timothee Mickus
|
Mathieu Constant
|
Denis Paperno
La génération de définitions est une tâche récente qui vise à produire des définitions lexicographiques à partir de plongements lexicaux. Nous remarquons deux lacunes : (i) l’état de l’art actuel ne s’est penché que sur l’anglais et le chinois, et (ii) l’utilisation escomptée en tant que méthode d’évaluation des plongements lexicaux doit encore être vérifiée. Pour y remédier, nous proposons un jeu de données pour la génération de définitions en français, ainsi qu’une évaluation des performances d’un modèle de génération de définitions simple selon les plongements lexicaux fournis en entrée.
pdf
bib
abs
Du bon usage d’ingrédients linguistiques spéciaux pour classer des recettes exceptionnelles (Using Special Linguistic Ingredients to Classify Exceptional Recipes )
Elham Mohammadi
|
Louis Marceau
|
Eric Charton
|
Leila Kosseim
|
Luka Nerima
|
Marie-Jean Meurs
Nous présentons un modèle d’apprentissage automatique qui combine modèles neuronaux et linguistiques pour traiter les tâches de classification dans lesquelles la distribution des étiquettes des instances est déséquilibrée. Les performances de ce modèle sont mesurées à l’aide d’expériences menées sur les tâches de classification de recettes de cuisine de la campagne DEFT 2013 (Grouin et al., 2013). Nous montrons que les plongements lexicaux (word embeddings) associés à des méthodes d’apprentissage profond obtiennent de meilleures performances que tous les algorithmes déployés lors de la campagne DEFT. Nous montrons aussi que ces mêmes classifieurs avec plongements lexicaux peuvent gagner en performance lorsqu’un modèle linguistique est ajouté au modèle neuronal. Nous observons que l’ajout d’un modèle linguistique au modèle neuronal améliore les performances de classification sur les classes rares.
pdf
bib
abs
Étude sur le résumé comparatif grâce aux plongements de mots (Comparative summarization study using word embeddings)
Valentin Nyzam
|
Aurélien Bossard
Dans cet article, nous présentons une nouvelle méthode de résumé automatique comparatif. Ce type de résumé a pour objectif de permettre de saisir rapidement les différences d’information entre deux jeux de documents. En raison de l’absence de ressources disponibles pour cette tâche, nous avons composé un corpus d’évaluation. Nous présentons à la fois la méthodologie de son élaboration ainsi que le corpus lui-même. Notre méthode utilise les avancées récentes dans le calcul de similarité entre phrases afin de détecter les informations comparatives. Nous montrons que sur ce corpus, notre méthode est comparable en termes de qualité de résultats à une méthode de l’état de l’art, tout en réduisant d’un facteur dix le temps de calcul, la rendant donc exploitable dans le cadre de l’aide à l’analyse de documents.
pdf
bib
abs
Réseaux de neurones pour la résolution d’analogies entre phrases en traduction automatique par l’exemple (Neural networks for the resolution of analogies between sentences in EBMT )
Valentin Taillandier
|
Liyan Wang
|
Yves Lepage
Cet article propose un modèle de réseau de neurones pour la résolution d’équations analogiques au niveau sémantique et entre phrases dans le cadre de la traduction automatique par l’exemple. Son originalité réside dans le fait qu’il fusionne les deux approches, directe et indirecte, de la traduction par l’exemple.
pdf
bib
abs
Impact de la structure logique des documents sur les modèles distributionnels : expérimentations sur le corpus TALN (Impact of document structure on distributional semantics models: a case study on NLP research articles )
Ludovic Tanguy
|
Cécile Fabre
|
Yoann Bard
Nous présentons une expérience visant à mesurer en quoi la structure logique d’un document impacte les représentations lexicales dans les modèles de sémantique distributionnelle. En nous basant sur des documents structurés (articles de recherche en TAL) nous comparons des modèles construits sur des corpus obtenus par suppression de certaines parties des textes du corpus : titres de section, résumés, introductions et conclusions. Nous montrons que malgré des différences selon les parties et le lexique pris en compte, ces zones réputées particulièrement informatives du contenu d’un article ont un impact globalement moins significatif que le reste du texte sur la construction du modèle.
pdf
bib
abs
Prédire automatiquement les intentions du locuteur dans des questions issues du discours oral spontané (Automatically predicting the speaker’s intentions in questions from spontaneous oral speech)
Angèle Barbedette
|
Iris Eshkol-Taravella
Cette étude porte sur la classification automatique des intentions exprimées dans des questions issues d’un corpus d’échanges oraux spontanés. Nous proposons une typologie dans laquelle nous distinguons trois classes d’intentions (AVIS, VOLONTÉ et DOUTE). Après plusieurs prétraitements et ajouts de traits lexicaux aux données (lexiques, nombre de mots et de caractères), nous implémentons un algorithme de classification automatique et nous en présentons et évaluons les résultats qui atteignent une F-mesure de 0,62. Nous proposons ensuite une interprétation de ceux-ci, basée sur une comparaison entre les expériences menées et des mesures liées aux traits linguistiques intégrés avant la tâche de classification.
pdf
bib
abs
Réduire l’effort humain d’amélioration des ressources lexicales grâce aux inférences (Reducing the Knowledge Resource Enhancement Human Effort through Inferences)
Nadia Bebeshina
|
Mathieu Lafourcade
Les inférences translingues représentent une piste intéressante pour la construction des ressources lexico-sémantiques multilingues. Cependant, la validation des éléments candidats nécessite un effort humain considérable. Nous décrivons une façon de construire des ressources lexico-sémantiques via des inférences monolingue et translingue. Son intérêt principal consiste à implémenter dans le contexte d’une ressource lexico-sémantique multilingue une approche où le processus de construction est un processus auto-apprenant car l’évaluation participe à la construction de celle-ci.
pdf
bib
abs
Extraction de thèmes d’un corpus de demandes de support pour un logiciel de relation citoyen (Topic extraction from a corpus of support requests for citizen relations software)
Mokhtar Boumedyen Billami
|
Christophe Bortolaso
|
Mustapha Derras
Nous nous intéressons dans cet article à l’extraction de thèmes (topics) à partir de commentaires textuels provenant des demandes de support de l’éditeur de logiciel Berger-Levrault. Le corpus de demandes analysé est celui d’un outil de gestion de la relation citoyen. Ce corpus n’est pas formaté et est peu structuré avec plusieurs locuteurs qui interviennent (le citoyen et un ou plusieurs techniciens support). Nous décrivons une étude expérimentale qui repose sur l’utilisation de deux systèmes. Le premier système applique une LDA (Allocation Dirichlet Latente), tandis que le second combine l’application d’une LDA avec l’algorithme k-Moyennes (k-Means). Nous comparons nos résultats avec un échantillon de ce corpus, annoté par un expert du domaine. Nos résultats montrent que nous obtenons une classification de meilleure qualité comparable avec celle effectuée manuellement par un expert en utilisant une combinaison LDA/k-Moyennes.
pdf
bib
abs
Recommandation d’âge pour des textes (Age recommendation for texts)
Alexis Blandin
|
Gwénolé Lecorvé
|
Delphine Battistelli
|
Aline Étienne
Cet article étudie une première tentative pour prédire une recommandation d’âge estimant à partir de quand un enfant pourrait comprendre un texte donné. À ce titre, nous présentons d’abord des descripteurs issus de divers domaines scientifiques, puis proposons différentes architectures de réseaux de neurones et les comparons sur un ensemble de données textuelles en français, dédiées à des publics jeune ou adulte. Pour contourner la faible quantité de données de ce type, nous étudions l’idée de prédire les âges au niveau de la phrase. Les expériences montrent que cette hypothèse, quoique forte, conduit d’ores et déjà à de bons résultats, meilleurs que ceux fournis par des experts psycholinguistes, y compris lorsque les phrases isolées sont remplacées par textes complets.
pdf
bib
abs
Traduire des corpus pour construire des modèles de traduction neuronaux : une solution pour toutes les langues peu dotées ? (Corpus Translation to Build Translation Models : a Solution for all Low-Resource Languages ?)
Raoul Blin
Nous comparons deux usages des langues pivots en traduction automatique neuronale pour des langues peu dotées. Nous nous intéressons au cas où il existe une langue pivot telle que les paires source-pivot et pivot-cible sont bien ou très bien dotées. Nous comparons la traduction séquentielle traditionnelle (source→pivot→cible) et la traduction à l’aide d’un modèle entraîné sur des corpus traduits à l’aide des langues pivot et cible. Les expériences sont menées sur trois langues sources (espagnol, allemand et japonais), une langue pivot (anglais) et une langue cible (français). Nous constatons que quelle que soit la proximité linguistique entre les langues source et pivot, le modèle entraîné sur corpus traduit a de meilleurs résultats que la traduction séquentielle, et bien sûr que la traduction directe.
pdf
bib
abs
Construction de plongements de concepts médicaux sans textes (Embedding medical concepts without texts)
Vincent Claveau
Dans le domaine médical, beaucoup d’outils du TAL reposent désormais sur des plongements de concepts issus de l’UMLS. Les approches existantes pour générer ces plongements nécessitent de grandes quantités de documents médicaux. Au contraire des ces approches, nous proposons dans cet article de nous appuyer sur les traductions en japonais, plus précisément en kanjis, disponibles dans l’UMLS pour générer ces plongements. Testée sur différents jeux d’évaluation proposés dans la littérature, notre approche, qui ne requiert donc aucun texte, donne de bons résultats comparativement à l’état-de-l’art. De plus, nous montrons qu’il est intéressant de les combiner avec les plongements – contextuels – existants.
pdf
bib
abs
Qu’apporte BERT à l’analyse syntaxique en constituants discontinus ? Une suite de tests pour évaluer les prédictions de structures syntaxiques discontinues en anglais (What does BERT contribute to discontinuous constituency parsing ? A test suite to evaluate discontinuous constituency structure predictions in English)
Maximin Coavoux
Cet article propose d’analyser les apports d’un modèle de langue pré-entraîné de type BERT (bidirectional encoder representations from transformers) à l’analyse syntaxique en constituants discontinus en anglais (PTB, Penn Treebank). Pour cela, nous réalisons une comparaison des erreurs d’un analyseur syntaxique dans deux configurations (i) avec un accès à BERT affiné lors de l’apprentissage (ii) sans accès à BERT (modèle n’utilisant que les données d’entraînement). Cette comparaison s’appuie sur la construction d’une suite de tests que nous rendons publique. Nous annotons les phrases de la section de validation du Penn Treebank avec des informations sur les phénomènes syntaxiques à l’origine des discontinuités. Ces annotations nous permettent de réaliser une évaluation fine des capacités syntaxiques de l’analyseur pour chaque phénomène cible. Nous montrons que malgré l’apport de BERT à la qualité des analyses (jusqu’à 95 en F1 ), certains phénomènes complexes ne sont toujours pas analysés de manière satisfaisante.
pdf
bib
abs
Sur l’impact des contraintes structurelles pour l’analyse en dépendances profondes fondée sur les graphes (On the impact of structural constraints for graph-based deep dependency parsing)
Caio Corro
Les algorithmes existants pour l’analyse en dépendances profondes fondée sur les graphes capables de garantir la connexité des structures produites ne couvrent pas les corpus du français. Nous proposons un nouvel algorithme qui couvre l’ensemble des structures possibles. Nous nous évaluons sur les corpus français FTB et Sequoia et observons un compromis entre la production de structures valides et la qualité des analyses.
pdf
bib
abs
L’expression des émotions dans les textes pour enfants : constitution d’un corpus annoté (Expressing emotions in texts for children: constitution of an annotated corpus)
Aline Étienne
|
Delphine Battistelli
|
Gwénolé Lecorvé
Cet article présente une typologie de divers modes d’expression linguistique des émotions, le schéma d’annotation sous Glozz qui implémente cette typologie et un corpus de textes journalistiques pour enfants annoté à l’aide de ce schéma. Ces travaux préliminaires s’insèrent dans le contexte d’une étude relative au développement des capacités langagières des enfants, en particulier de leur capacité à comprendre un texte selon des critères émotionnels.
pdf
bib
Traduction automatique pour la normalisation du français du XVIIe siècle ()
Simon Gabay
|
Loïc Barrault
pdf
bib
abs
Prédire le niveau de langue d’apprenants d’anglais (Predict the language level for English learners)
Natalia Grabar
|
Thierry Hamon
|
Bert Cappelle
|
Cyril Grandin
|
Benoît Leclercq
|
Ilse Depraetere
L’apprentissage de la deuxième langue (L2) est un processus progressif dans lequel l’apprenant améliore sa maîtrise au fur et à mesure de l’apprentissage. L’analyse de productions d’apprenants intéresse les chercheurs et les enseignants car cela permet d’avoir une meilleure idée des difficultés et les facilités d’apprentissage et de faire des programmes didactiques plus adaptés. Cela peut également donner des indications sur les difficultés cognitives à maîtriser les notions grammaticales abstraites dans une nouvelle langue. Nous proposons de travailler sur un corpus de productions langagières d’apprenants d’anglais provenant de différents pays et donc ayant différentes langues maternelles (L1). Notre objectif consiste à catégoriser ces productions langagières selon six niveaux de langue (A1, A2, B1, B2, C1, C2). Nous utilisons différents ensembles de descripteurs, y compris les verbes et expressions modaux. Nous obtenons des résultats intéressants pour cette catégorisation multiclasse, ce qui indique qu’il existe des différences linguistiques inhérentes entre les différents niveaux.
pdf
bib
abs
TArC. Un corpus d’arabish tunisien
Elisa Gugliotta
|
Marco Dinarelli
TArC : Incrementally and Semi-Automatically Collecting a Tunisian arabish Corpus This article describes the collection process of the first morpho-syntactically annotated Tunisian arabish Corpus (TArC). Arabish is a spontaneous coding of Arabic Dialects (AD) in Latin characters and arithmographs (numbers used as letters). This code-system was developed by Arabic-speaking users of social media in order to facilitate the communication on digital devices. Arabish differs for each Arabic dialect and each arabish code-system is under-resourced. In the last few years, the attention of NLP on AD has considerably increased. TArC will be thus a useful support for different types of analyses, as well as for NLP tools training. In this article we will describe preliminary work on the TArC semi-automatic construction process and some of the first analyses on the corpus. In order to provide a complete overview of the challenges faced during the building process, we will present the main Tunisian dialect characteristics and its encoding in Tunisian arabish.
pdf
bib
abs
Segmentation automatique en périodes pour le français parlé (Automatic Period Segmentation of Oral French)
Natalia Kalashnikova
|
Iris Eshkol-Taravella
|
Loïc Grobol
|
François Delafontaine
Nous proposons la comparaison de deux méthodes de segmentation automatique du français parlé en périodes macro-syntaxiques, qui permettent d’analyser la syntaxe et la prosodie du discours. Nous comparons l’outil Analor (Avanzi et al., 2008) qui a été développé pour la segmentation des périodes prosodiques et les modèles de segmentations utilisant des CRF et des traits prosodiques et / ou morphosyntaxiques. Les résultats montrent qu’Analor divise le discours en plus petits segments prosodiques tandis que les modèles CRF détectent des segments plus larges que les périodes macro-syntaxiques. Cependant, les modèles CRF ont de meilleurs résultats qu’Analor en termes de F-mesure.
pdf
bib
abs
Les avis sur les restaurants à l’épreuve de l’apprentissage automatique (An Empirical Examination of Online Restaurant Reviews)
Hyun Jung Kang
|
Iris Eshkol-Taravella
Dans la fouille d’opinions, de nombreuses études portent sur l’extraction automatique des opinions positives ou négatives. Cependant les recherches ayant pour objet la fouille de suggestions et d’intentions sont moins importantes, malgré leur lien profond avec l’opinion. Cet article vise à détecter six catégories (opinion positive/mixte/négative, suggestion, intention, description) dans les avis en ligne sur les restaurants en exploitant deux méthodes : l’apprentissage de surface et l’apprentissage profond supervisés. Les performances obtenues pour chaque catégorie sont interprétées ensuite en tenant compte des spécificités du corpus traité.
pdf
bib
abs
Recherche de similarité thématique en temps réel au sein d’un débat en ligne (Thematic similarity real-time computation during an online debate)
Mathieu Lafourcade
|
Noémie-Fleur Sandillon-Rezer
Cet article se focalise sur l’utilisation d’un large réseau lexico-sémantique français pour le calcul de similarité thématique d’interventions au cours d’un débat en ligne dans les lycées, proche du temps réel. Pour cela, notre système extrait des informations sémantiques du réseau et crée à la volée des vecteurs enrichis pour chaque fragment de texte. Les données récupérées sont contextualisées via un algorithme de propagation. Les vecteurs résultat permettent aux fragments de texte d’être comparés. Notre méthode aide à trouver les thématiques émergentes des débats et à identifier des clusters d’opinion. La contrainte temps réel nous force à sélectionner précisément les informations que nous incluons, aussi bien pour les temps de calcul des vecteurs créés que la qualité de ceux-ci.
pdf
bib
abs
FlauBERT : des modèles de langue contextualisés pré-entraînés pour le français (FlauBERT : Unsupervised Language Model Pre-training for French)
Hang Le
|
Loïc Vial
|
Jibril Frej
|
Vincent Segonne
|
Maximin Coavoux
|
Benjamin Lecouteux
|
Alexandre Allauzen
|
Benoît Crabbé
|
Laurent Besacier
|
Didier Schwab
Les modèles de langue pré-entraînés sont désormais indispensables pour obtenir des résultats à l’état-de-l’art dans de nombreuses tâches du TALN. Tirant avantage de l’énorme quantité de textes bruts disponibles, ils permettent d’extraire des représentations continues des mots, contextualisées au niveau de la phrase. L’efficacité de ces représentations pour résoudre plusieurs tâches de TALN a été démontrée récemment pour l’anglais. Dans cet article, nous présentons et partageons FlauBERT, un ensemble de modèles appris sur un corpus français hétérogène et de taille importante. Des modèles de complexité différente sont entraînés à l’aide du nouveau supercalculateur Jean Zay du CNRS. Nous évaluons nos modèles de langue sur diverses tâches en français (classification de textes, paraphrase, inférence en langage naturel, analyse syntaxique, désambiguïsation automatique) et montrons qu’ils surpassent souvent les autres approches sur le référentiel d’évaluation FLUE également présenté ici.
pdf
bib
abs
Relation, es-tu là ? Détection de relations par LSTM pour améliorer l’extraction de relations (Relation, are you there ? LSTM-based relation detection to improve knowledge extraction )
Cyrielle Mallart
|
Michel Le Nouy
|
Guillaume Gravier
|
Pascale Sébillot
De nombreuses méthodes d’extraction et de classification de relations ont été proposées et testées sur des données de référence. Cependant, dans des données réelles, le nombre de relations potentielles est énorme et les heuristiques souvent utilisées pour distinguer de vraies relations de co-occurrences fortuites ne détectent pas les signaux faibles pourtant importants. Dans cet article, nous étudions l’apport d’un modèle de détection de relations, identifiant si un couple d’entités dans une phrase exprime ou non une relation, en tant qu’étape préliminaire à la classification des relations. Notre modèle s’appuie sur le plus court chemin de dépendances entre deux entités, modélisé par un LSTM et combiné avec les types des entités. Sur la tâche de détection de relations, nous obtenons de meilleurs résultats qu’un modèle état de l’art pour la classification de relations, avec une robustesse accrue aux relations inédites. Nous montrons aussi qu’une détection binaire en amont d’un modèle de classification améliore significativement ce dernier.
pdf
bib
abs
Analyse automatique en cadres sémantiques pour l’apprentissage de modèles de compréhension de texte (Semantic Frame Parsing for training Machine Reading Comprehension models)
Gabriel Marzinotto
|
Delphine Charlet
|
Géraldine Damnati
|
Frédéric Béchet
Dans le cadre de la compréhension automatique de documents, cet article propose une évaluation intrinsèque et extrinsèque d’un modèle d’analyse automatique en cadres sémantiques (Frames). Le modèle proposé est un modèle état de l’art à base de GRU bi-directionnel, enrichi par l’utilisation d’embeddings contextuels. Nous montrons qu’un modèle de compréhension de documents appris sur un corpus de triplets générés à partir d’un corpus analysé automatiquement avec l’analyseur en cadre sémantique présente des performances inférieures de seulement 2.5% en relatif par rapport à un modèle appris sur un corpus de triplets générés à partir d’un corpus analysé manuellement.
pdf
bib
abs
Analyse de sentiments des vidéos en dialecte algérien (Sentiment analysis of videos in Algerian dialect)
Mohamed Amine Menacer
|
Karima Abidi
|
Nouha Othman
|
Kamel Smaïli
La plupart des travaux existant sur l’analyse de sentiments traitent l’arabe standard moderne et ne prennent pas en considération les spécificités de l’arabe dialectal. Cet article présente un système d’analyse de sentiments de textes extraits de vidéos exprimées en dialecte algérien. Dans ce travail, nous avons deux défis à surmonter, la reconnaissance automatique de la parole pour le dialecte algérien et l’analyse de sentiments du texte reconnu. Le développement du système de reconnaissance automatique de la parole est basé sur un corpus oral restreint. Pour pallier le manque de données, nous proposons d’exploiter des données ayant un impact sur le dialecte algérien, à savoir l’arabe standard et le français. L’analyse de sentiments est fondée sur la détection automatique de la polarité des mots en fonction de leur proximité sémantique avec d’autres mots ayant une polarité prédéterminée.
pdf
bib
abs
VerNom : une base de paires morphologiques acquise sur très gros corpus (VerNom : a French derivational database acquired on a massive corpus)
Alice Missud
|
Pascal Amsili
|
Florence Villoing
Alors qu’une part active de la recherche en morphologie dérivationnelle s’intéresse à la compétition qui oppose les suffixations construisant des noms d’événement à partir de verbes (-age, -ment, -ion, -ure, -ance, -ade, -aison), l’accès à des données en large quantité devient nécessaire pour l’application de méthodes quantitatives. Dans l’optique de réunir des paires de verbes et de noms morphologiquement reliés dans le cadre de ces suffixations rivales, nous présentons VerNom, une base morphologique comprenant 25 857 paires verbe-nom, construite automatiquement à partir d’un corpus massif issu du web.
pdf
bib
abs
Étude des variations sémantiques à travers plusieurs dimensions (Studying semantic variations through several dimensions )
Syrielle Montariol
|
Alexandre Allauzen
Au sein d’une langue, l’usage des mots varie selon deux axes : diachronique (dimension temporelle) et synchronique (variation selon l’auteur, la communauté, la zone géographique... ). Dans ces travaux, nous proposons une méthode de détection et d’interprétation des variations d’usages des mots à travers ces différentes dimensions. Pour cela, nous exploitons les capacités d’une nouvelle ligne de plongements lexicaux contextualisés, en particulier le modèle BERT. Nous expérimentons sur un corpus de rapports financiers d’entreprises françaises, pour appréhender les enjeux et préoccupations propres à certaines périodes, acteurs et secteurs d’activités.
pdf
bib
abs
Identification des problèmes d’annotation pour l’extraction de relations (Identification of annotation problem for the relation extraction)
Tsanta Randriatsitohaina
|
Thierry Hamon
L’annotation d’un corpus est une tâche difficile et laborieuse, notamment sur des textes de spécialité comme les textes biomédicaux. Ainsi, dans un contexte comme l’extraction des interactions alimentmédicament (FDI), l’annotation du corpus POMELO a été réalisée par un seul annotateur et présente des risques d’erreur. Dans cet article, nous proposons d’identifier ces problèmes d’annotation en utilisant un corpus Silver Standard (CSS) que nous établissons à partir d’un vote majoritaire parmi les annotations proposées par des modèles entraînés sur un domaine similaire (interaction médicamentmédicament – DDI) et l’annotation manuelle à évaluer. Les résultats obtenus montrent que l’annotation dans POMELO est considérablement éloignée du CSS. L’analyse des erreurs permet d’en identifier les principales causes et de proposer des solutions pour corriger l’annotation existante.
pdf
bib
abs
Simplification automatique de texte dans un contexte de faibles ressources (Automatic Text Simplification : Approaching the Problem in Low Resource Settings for French)
Sadaf Abdul Rauf
|
Anne-Laure Ligozat
|
Francois Yvon
|
Gabriel Illouz
|
Thierry Hamon
La simplification de textes a émergé comme un sous-domaine actif du traitement automatique des langues, du fait des problèmes pratiques et théoriques qu’elle permet d’aborder, ainsi que de ses nombreuses applications pratiques. Des corpus de simplification sont nécessaires pour entrainer des systèmes de simplification automatique ; ces ressources sont toutefois rares et n’existent que pour un petit nombre de langues. Nous montrons ici que dans un contexte où les ressources pour la simplification sont rares, il reste néanmoins possible de construire des systèmes de simplification, en ayant recours à des corpus synthétiques, par exemple obtenus par traduction automatique, et nous évaluons diverses manières de les constituer.
pdf
bib
abs
Représentation sémantique des familles dérivationnelles au moyen de frames morphosémantiques (Semantic representation of derivational families by means of morphosemantic frames )
Daniele Sanacore
|
Nabil Hathout
|
Fiammetta Namer
L’article présente un formalisme de représentation des relations morphologiques dérivationnelles inspiré de la Sémantique des Frames. La description morphosémantique y est réalisée au niveau des familles dérivationnelles au moyen de frames morphosémantiques dans lesquels les lexèmes sont définis les uns relativement aux autres. Les frames morphosémantiques permettent de rendre compte de la structure paradigmatique du lexique morphologique par l’alignement des familles qui présentent les mêmes oppositions de sens. La seconde partie de l’article est consacrée aux données qui seront utilisées pour produire (semi-) automatiquement ces représentations.
pdf
bib
abs
Modèle neuronal pour la résolution de la coréférence dans les dossiers médicaux électroniques (Neural approach for coreference resolution in electronic health records )
Julien Tourille
|
Olivier Ferret
|
Aurélie Névéol
|
Xavier Tannier
La résolution de la coréférence est un élément essentiel pour la constitution automatique de chronologies médicales à partir des dossiers médicaux électroniques. Dans ce travail, nous présentons une approche neuronale pour la résolution de la coréférence dans des textes médicaux écrits en anglais pour les entités générales et cliniques en nous évaluant dans le cadre de référence pour cette tâche que constitue la tâche 1C de la campagne i2b2 2011.
pdf
bib
abs
Un corpus d’évaluation pour un système de simplification discursive (An Evaluation Corpus for Automatic Discourse Simplification)
Rodrigo Wilkens
|
Amalia Todirascu
Nous présentons un nouveau corpus simplifié, disponible en français pour l’évaluation d’un système de simplification discursive. Ce système utilise des chaînes de référence pour simplifier et pour préserver la cohésion textuelle après simplification. Nous présentons la méthodologie de collecte de corpus (via un formulaire, qui recueille les simplifications manuelles faites par des participants experts), les règles présentées dans le guide, une analyse des types de simplifications et une évaluation de notre corpus, par comparaison avec la sortie du système de simplification automatique.
pdf
bib
abs
La réécriture monolingue ou bilingue facilite-t-elle la compréhension ? (Does monolingual or bilingual rewriting facilitate comprehension ?)
Yuming Zhai
|
Gabriel Illouz
|
Anne Vilnat
La capacité en compréhension écrite est importante à développer pour les apprenants de langues étrangères. Cet article présente une expérience pour vérifier si les paraphrases fournies en contexte facilitent la compréhension des apprenants. Les paraphrases ont été extraites automatiquement d’un corpus parallèle bilingue. Suite à l’analyse des résultats, nous proposons des pistes d’enrichissement d’un outil conçu préalablement, pour automatiser la sélection de réécritures dans un futur travail, tout en caractérisant mieux différents types de réécritures.