Isabelle Tellier - ACL Anthology

Isabelle Tellier

2020

Chunk Different Kind of Spoken Discourse: Challenges for Machine Learning
Iris Eshkol-Taravella | Mariame Maarouf | Flora Badin | Marie Skrovec | Isabelle Tellier
Proceedings of the Twelfth Language Resources and Evaluation Conference

This paper describes the development of a chunker for spoken data by supervised machine learning using the CRFs, based on a small reference corpus composed of two kinds of discourse: prepared monologue vs. spontaneous talk in interaction. The methodology considers the specific character of the spoken data. The machine learning uses the results of several available taggers, without correcting the results manually. Experiments show that the discourse type (monologue vs. free talk), the speech nature (spontaneous vs. prepared) and the corpus size can influence the results of the machine learning process and must be considered while interpreting the results.

2018

Modélisation des processus d’acquisition syntaxique par jeux de langage entre agents artificiels (Modeling Syntactic Acquisition by Language Games between Artificial Agents )
Marie Marcia | Isabelle Tellier
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Dans cet article, nous présentons une modélisation de la situation d’acquisition de la syntaxe de sa langue maternelle par un enfant inspirée des “jeux de langages” de Luc Steels. Le modèle suppose que l’enfant a accès à une représentation sémantique des énoncés qui lui sont adressés, et qu’il doit réagir en désignant la tête syntaxique de ces énoncés. Nous décrivons des expériences exploitant des données du corpus CHILDES et mettant en jeu un processus d’acquisition simple mais efficace.

Apport des dépendances syntaxiques et des patrons séquentiels à l’extraction de relations ()
Kata Gábor | Nadège Lechevrel | Isabelle Tellier | Davide Buscaldi | Haifa Zargayouna | Thierry Charnois
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

ANCOR-AS: Enriching the ANCOR Corpus with Syntactic Annotations
Loïc Grobol | Isabelle Tellier | Éric de la Clergerie | Marco Dinarelli | Frédéric Landragin
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

2017

Apports des analyses syntaxiques pour la détection automatique de mentions dans un corpus de français oral (Experiences in using deep and shallow parsing to detect entity mentions in oral French)
Loïc Grobol | Isabelle Tellier | Éric de La Clergerie | Marco Dinarelli | Frédéric Landragin
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

Cet article présente trois expériences de détection de mentions dans un corpus de français oral : ANCOR. Ces expériences utilisent des outils préexistants d’analyse syntaxique du français et des méthodes issues de travaux sur la coréférence, les anaphores et la détection d’entités nommées. Bien que ces outils ne soient pas optimisés pour le traitement de l’oral, la qualité de la détection des mentions que nous obtenons est comparable à l’état de l’art des systèmes conçus pour l’écrit dans d’autres langues. Nous concluons en proposant des perspectives pour l’amélioration des résultats que nous obtenons et la construction d’un système end-to-end pour lequel nos expériences peuvent servir de base de travail.

Traitement Automatique des Langues, Volume 58, Numéro 1 : Varia [Varia]
Jean-Luc Minel | Emmanuel Morin | Pascale Sébillot | Isabelle Tellier
Traitement Automatique des Langues, Volume 58, Numéro 1 : Varia [Varia]

Détection des mots non-standards dans les tweets avec des réseaux de neurones (Detecting non-standard words in tweets with neural networks)
Tian Tian | Isabelle Tellier | Marco Dinarelli | Pedro Cardoso
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

Dans cet article, nous proposons un modèle pour détecter dans les textes générés par des utilisateurs (en particulier les tweets), les mots non-standards à corriger. Nous utilisons pour cela des réseaux de neurones convolutifs au niveau des caractères, associés à des “plongements” (embeddings) des mots présents dans le contexte du mot courant. Nous avons utilisé pour l’évaluation trois corpus de référence. Nous avons testé différents modèles qui varient suivant leurs plongements pré-entrainés, leurs configurations et leurs optimisations. Nous avons finalement obtenu une F1-mesure de 0.972 en validation croisée pour la classe des mots non-standards. Cette détection des mots à corriger est l’étape préliminaire pour la normalisation des textes non standards comme les tweets.

Réseaux neuronaux profonds pour l’étiquetage de séquences (Deep Neural Networks for Sequence Labeling)
Yoann Dupont | Marco Dinarelli | Isabelle Tellier
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 2 - Articles courts

Depuis quelques années les réseaux neuronaux se montrent très efficaces dans toutes les tâches de Traitement Automatique des Langues (TAL). Récemment, une variante de réseau neuronal particulièrement adapté à l’étiquetage de séquences textuelles a été proposée, utilisant des représentations distributionnelles des étiquettes. Dans cet article, nous reprenons cette variante et nous l’améliorons avec une version profonde. Dans cette version, différentes couches cachées permettent de prendre en compte séparément les différents types d’informations données en entrée au réseau. Nous évaluons notre modèle sur les mêmes tâches que la première version de réseau de laquelle nous nous sommes inspirés. Les résultats montrent que notre variante de réseau neuronal est plus efficace que les autres, mais aussi qu’elle est plus efficace que tous les autres modèles évalués sur ces tâches, obtenant l’état-de-l’art.

Exploring Vector Spaces for Semantic Relations
Kata Gábor | Haïfa Zargayouna | Isabelle Tellier | Davide Buscaldi | Thierry Charnois
Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing

Word embeddings are used with success for a variety of tasks involving lexical semantic similarities between individual words. Using unsupervised methods and just cosine similarity, encouraging results were obtained for analogical similarities. In this paper, we explore the potential of pre-trained word embeddings to identify generic types of semantic relations in an unsupervised experiment. We propose a new relational similarity measure based on the combination of word2vec’s CBOW input and output vectors which outperforms concurrent vector representations, when used for unsupervised clustering on SemEval 2010 Relation Classification data.

2016

From built examples to attested examples: a syntax-based query for non-specialists
Ilaine Wang | Sylvain Kahane | Isabelle Tellier
Proceedings of the 30th Pacific Asia Conference on Language, Information and Computation: Posters

Domain Adaptation for Named Entity Recognition Using CRFs
Tian Tian | Marco Dinarelli | Isabelle Tellier | Pedro Dias Cardoso
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

In this paper we explain how we created a labelled corpus in English for a Named Entity Recognition (NER) task from multi-source and multi-domain data, for an industrial partner. We explain the specificities of this corpus with examples and describe some baseline experiments. We present some results of domain adaptation on this corpus using a labelled Twitter corpus (Ritter et al., 2011). We tested a semi-supervised method from (Garcia-Fernandez et al., 2014) combined with a supervised domain adaptation approach proposed in (Raymond and Fayolle, 2010) for machine learning experiments with CRFs (Conditional Random Fields). We use the same technique to improve the NER results on the Twitter corpus (Ritter et al., 2011). Our contributions thus consist in an industrial corpus creation and NER performance improvements.

Détection et classification non supervisées de relations sémantiques dans des articles scientifiques (Unsupervised Classification of Semantic Relations in Scientific Papers)
Kata Gábor | Isabelle Tellier | Thierry Charnois | Haïfa Zargayouna | Davide Buscaldi
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

Dans cet article, nous abordons une tâche encore peu explorée, consistant à extraire automatiquement l’état de l’art d’un domaine scientifique à partir de l’analyse d’articles de ce domaine. Nous la ramenons à deux sous-tâches élémentaires : l’identification de concepts et la reconnaissance de relations entre ces concepts. Une extraction terminologique permet d’identifier les concepts candidats, qui sont ensuite alignés à des ressources externes. Dans un deuxième temps, nous cherchons à reconnaître et classifier automatiquement les relations sémantiques entre concepts de manière nonsupervisée, en nous appuyant sur différentes techniques de clustering et de biclustering. Nous mettons en œuvre ces deux étapes dans un corpus extrait de l’archive de l’ACL Anthology. Une analyse manuelle nous a permis de proposer une typologie des relations sémantiques, et de classifier un échantillon d’instances de relations. Les premières évaluations suggèrent l’intérêt du biclustering pour détecter de nouveaux types de relations dans le corpus.

Étude des réseaux de neurones récurrents pour étiquetage de séquences (A study of Recurrent Neural Networks for Sequence Labelling)
Marco Dinarelli | Isabelle Tellier
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

Dans cet article nous étudions plusieurs types de réseaux neuronaux récurrents (RNN) pour l’étiquetage de séquences. Nous proposons deux nouvelles variantes de RNN et nous les comparons aux variantes plus classiques de type Jordan et Elman. Nous expliquons en détails quels sont les avantages de nos nouvelles variantes par rapport aux autres RNN. Nous évaluons tous les modèles, les nouvelles variantes ainsi que les RNN existants, sur deux tâches de compréhension de la parole : ATIS et MEDIA. Les résultats montrent que nos nouvelles variantes de RNN sont plus efficaces que les autres.

Semantic Annotation of the ACL Anthology Corpus for the Automatic Analysis of Scientific Literature
Kata Gábor | Haïfa Zargayouna | Davide Buscaldi | Isabelle Tellier | Thierry Charnois
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

This paper describes the process of creating a corpus annotated for concepts and semantic relations in the scientific domain. A part of the ACL Anthology Corpus was selected for annotation, but the annotation process itself is not specific to the computational linguistics domain and could be applied to any scientific corpora. Concepts were identified and annotated fully automatically, based on a combination of terminology extraction and available ontological resources. A typology of semantic relations between concepts is also proposed. This typology, consisting of 18 domain-specific and 3 generic relations, is the result of a corpus-based investigation of the text sequences occurring between concepts in sentences. A sample of 500 abstracts from the corpus is currently being manually annotated with these semantic relations. Only explicit relations are taken into account, so that the data could serve to train or evaluate pattern-based semantic relation classification systems.

2015

Apprentissage automatique d’un modèle de résolution de la coréférence à partir de données orales transcrites du français : le système CROC
Adèle Désoyer | Frédéric Landragin | Isabelle Tellier
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Cet article présente CROC 1 (Coreference Resolution for Oral Corpus), un premier système de résolution des coréférences en français reposant sur des techniques d’apprentissage automatique. Une des spécificités du système réside dans son apprentissage sur des données exclusivement orales, à savoir ANCOR (anaphore et coréférence dans les corpus oraux), le premier corpus de français oral transcrit annoté en relations anaphoriques. En l’état actuel, le système CROC nécessite un repérage préalable des mentions. Nous détaillons les choix des traits – issus du corpus ou calculés – utilisés par l’apprentissage, et nous présentons un ensemble d’expérimentations avec ces traits. Les scores obtenus sont très proches de ceux de l’état de l’art des systèmes conçus pour l’écrit. Nous concluons alors en donnant des perspectives sur la réalisation d’un système end-to-end valable à la fois pour l’oral transcrit et l’écrit.

Data Adaptation for Named Entity Recognition on Tweets with Features-Rich CRF
Tian Tian | Marco Dinarelli | Isabelle Tellier
Proceedings of the Workshop on Noisy User-generated Text

Etiquetage morpho-syntaxique de tweets avec des CRF
Tian Tian | Marco Dinarelli | Isabelle Tellier | Pedro Cardoso
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Nous nous intéressons dans cet article à l’apprentissage automatique d’un étiqueteur mopho-syntaxique pour les tweets en anglais. Nous proposons tout d’abord un jeu d’étiquettes réduit avec 17 étiquettes différentes, qui permet d’obtenir de meilleures performances en exactitude par rapport au jeu d’étiquettes traditionnel qui contient 45 étiquettes. Comme nous disposons de peu de tweets étiquetés, nous essayons ensuite de compenser ce handicap en ajoutant dans l’ensemble d’apprentissage des données issues de textes bien formés. Les modèles mixtes obtenus permettent d’améliorer les résultats par rapport aux modèles appris avec un seul corpus, qu’il soit issu de Twitter ou de textes journalistiques.

Analyse syntaxique de l’ancien français : quelles propriétés de la langue influent le plus sur la qualité de l’apprentissage ?
Gaël Guibon | Isabelle Tellier | Sophie Prévost | Matthieu Constant | Kim Gerdes
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

L’article présente des résultats d’expériences d’apprentissage automatique pour l’étiquetage morpho-syntaxique et l’analyse syntaxique en dépendance de l’ancien français. Ces expériences ont pour objectif de servir une exploration de corpus pour laquelle le corpus arboré SRCMF sert de données de référence. La nature peu standardisée de la langue qui y est utilisée implique des données d’entraînement hétérogènes et quantitativement limitées. Nous explorons donc diverses stratégies, fondées sur différents critères (variabilité du lexique, forme Vers/Prose des textes, dates des textes), pour constituer des corpus d’entrainement menant aux meilleurs résultats possibles.

2014

Macrosyntactic Segmenters of a French Spoken Corpus
Ilaine Wang | Sylvain Kahane | Isabelle Tellier
Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC'14)

The aim of this paper is to describe an automated process to segment spoken French transcribed data into macrosyntactic units. While sentences are delimited by punctuation marks for written data, there is no obvious hint nor limit to major units for speech. As a reference, we used the manual annotation of macrosyntactic units based on illocutionary as well as syntactic criteria and developed for the Rhapsodie corpus, a 33.000 words prosodic and syntactic treebank. Our segmenters were built using machine learning methods as supervised classifiers : segmentation is about identifying the boundaries of units, which amounts to classifying each interword space. We trained six different models on Rhapsodie using different sets of features, including prosodic and morphosyntactic cues, on the assumption that their combination would be relevant for the task. Both types of cues could be resulting either from manual annotation/correction or from fully automated processes, which comparison might help determine the cost of manual effort, especially for the 3M words of spoken French of the Orfeo project those experiments are contributing to.

Les coréférences à l’oral : une expérience d’apprentissage automatique sur le corpus ANCOR [Coreferences in oral French: a machine learning experiment using the ANCOR corpus]
Adèle Désoyer | Frédéric Landragin | Isabelle Tellier | Anaïs Lefeuvre | Jean-Yves Antoine
Traitement Automatique des Langues, Volume 55, Numéro 2 : Traitement automatique du langage parlé [Spoken language processing]

Can we chunk well with bad POS labels? (Peut-on bien chunker avec de mauvaises étiquettes POS ?) [in French]
Isabelle Tellier | Iris Eshkol-Taravella | Yoann Dupont | Ilaine Wang
Proceedings of TALN 2014 (Volume 1: Long Papers)

A Named Entity recognizer for French (Un reconnaisseur d’entités nommées du Français) [in French]
Yoann Dupont | Isabelle Tellier
Proceedings of TALN 2014 (Volume 3: System Demonstrations)

2013

How Symbolic Learning Can Help Statistical Learning (and vice versa)
Isabelle Tellier | Yoann Dupont
Proceedings of the International Conference Recent Advances in Natural Language Processing RANLP 2013

Symbolic and statistical learning for chunking : comparison and combinations (Apprentissage symbolique et statistique pour le chunking:comparaison et combinaisons) [in French]
Isabelle Tellier | Yoann Dupont
Proceedings of TALN 2013 (Volume 1: Long Papers)

2012

Evaluating the Impact of External Lexical Resources into a CRF-based Multiword Segmenter and Part-of-Speech Tagger
Matthieu Constant | Isabelle Tellier
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

This paper evaluates the impact of external lexical resources into a CRF-based joint Multiword Segmenter and Part-of-Speech Tagger. We especially show different ways of integrating lexicon-based features in the tagging model. We display an absolute gain of 0.5% in terms of f-measure. Moreover, we show that the integration of lexicon-based features significantly compensates the use of a small training corpus.

Un segmenteur-étiqueteur et un chunker pour le français (A Segmenter-POS Labeller and a Chunker for French) [in French]
Isabelle Tellier | Yoann Dupont | Arnaud Courmet
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 5: Software Demonstrations

Apprentissage automatique d’un chunker pour le français (Machine Learning of a chunker for French) [in French]
Isabelle Tellier | Denys Duchier | Iris Eshkol | Arnaud Courmet | Mathieu Martinet
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

2011

Un grand corpus oral disponible : le Corpus d’Orléans 1968-2012 [A Large available oral corpus: Orleans corpus 1968-2012]
Iris Eshkol-taravella | Olivier Baude | Denis Maurel | Linda Hriba | Celine Dugua | Isabelle Tellier
Traitement Automatique des Langues, Volume 52, Numéro 3 : Ressources linguistiques libres [Free Language Resources]

Intégrer des connaissances linguistiques dans un CRF : application à l’apprentissage d’un segmenteur-étiqueteur du français (Integrating linguistic knowledge in a CRF: application to learning a segmenter-tagger of French)
Matthieu Constant | Isabelle Tellier | Denys Duchier | Yoann Dupont | Anthony Sigogne | Sylvie Billot
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Dans cet article, nous synthétisons les résultats de plusieurs séries d’expériences réalisées à l’aide de CRF (Conditional Random Fields ou “champs markoviens conditionnels”) linéaires pour apprendre à annoter des textes français à partir d’exemples, en exploitant diverses ressources linguistiques externes. Ces expériences ont porté sur l’étiquetage morphosyntaxique intégrant l’identification des unités polylexicales. Nous montrons que le modèle des CRF est capable d’intégrer des ressources lexicales riches en unités multi-mots de différentes manières et permet d’atteindre ainsi le meilleur taux de correction d’étiquetage actuel pour le français.

2010

De la classification d’opinion à la recommandation : l’apport des textes communautaires [From opinion classification to recommendations: How texts from a social network can help]
Damien Poirier | Françoise Fessant | Isabelle Tellier
Traitement Automatique des Langues, Volume 51, Numéro 3 : Opinions, sentiments et jugements d’évaluation [Opinions, sentiment and evaluative language]

2009

Introduction [Préface]
Isabelle Tellier
Traitement Automatique des Langues, Volume 50, Numéro 3 : Apprentissage automatique pour le TAL [Machine Learning for NLP]

Annotation fonctionnelle de corpus arborés avec des Champs Aléatoires Conditionnels
Erwan Moreau | Isabelle Tellier | Antonio Balvet | Grégoire Laurence | Antoine Rozenknop | Thierry Poibeau
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

L’objectif de cet article est d’évaluer dans quelle mesure les “fonctions syntaxiques” qui figurent dans une partie du corpus arboré de Paris 7 sont apprenables à partir d’exemples. La technique d’apprentissage automatique employée pour cela fait appel aux “Champs Aléatoires Conditionnels” (Conditional Random Fields ou CRF), dans une variante adaptée à l’annotation d’arbres. Les expériences menées sont décrites en détail et analysées. Moyennant un bon paramétrage, elles atteignent une F1-mesure de plus de 80%.

The Crotal SRL System : a Generic Tool Based on Tree-structured CRF
Erwan Moreau | Isabelle Tellier
Proceedings of the Thirteenth Conference on Computational Natural Language Learning (CoNLL 2009): Shared Task

2004

Un modèle d’acquisition de la syntaxe à l’aide d’informations sémantiques
Daniela Dudau Sofronie | Isabelle Tellier
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous présentons dans cet article un algorithme d’apprentissage syntaxico-sémantique du langage naturel. Les données de départ sont des phrases correctes d’une langue donnée, enrichies d’informations sémantiques. Le résultat est l’ensemble des grammaires formelles satisfaisant certaines conditions et compatibles avec ces données. La stratégie employée, validée d’un point de vue théorique, est testée sur un corpus de textes français constitué pour l’occasion.

1998

Syntactico-Semantic Learning of Categorial Grammars
Isabelle Tellier
New Methods in Language Processing and Computational Natural Language Learning

Venues