Emmanuel Morin - ACL Anthology

Emmanuel Morin

2025

AdminSet and AdminBERT: a Dataset and a Pre-trained Language Model to Explore the Unstructured Maze of French Administrative Documents
Thomas Sebbag | Solen Quiniou | Nicolas Stucky | Emmanuel Morin
Proceedings of the 31st International Conference on Computational Linguistics

In recent years, Pre-trained Language Models(PLMs) have been widely used to analyze various documents, playing a crucial role in Natural Language Processing (NLP). However, administrative texts have rarely been used in information extraction tasks, even though this resource is available as open data in many countries. Most of these texts contain many specific domain terms. Moreover, especially in France, they are unstructured because many administrations produce them without a standardized framework. Due to this fact, current language models do not process these documents correctly. In this paper, we propose AdminBERT, the first French pre-trained language models for the administrative domain. Since interesting information in such texts corresponds to named entities and the relations between them, we compare this PLM with general domain language models, fine-tuned on the Named Entity Recognition (NER) task applied to administrative texts, as well as to a Large Language Model (LLM) and to a language model with an architecture different from the BERT one. We show that taking advantage of a PLM for French administrative data increases the performance in the administrative and general domains, on these texts. We also release AdminBERT as well as AdminSet, the pre-training corpus of administrative texts in French and the subset AdminSet-NER, the first NER dataset consisting exclusively of administrative texts in French.

LLM as a Guide: an Approach for Unsupervised Economic Relation Discovery in Administrative Documents
Thomas Sebbag | Solen Quiniou | Emmanuel Morin
Proceedings of The 10th Workshop on Financial Technology and Natural Language Processing

AdminSet and AdminBERT : un jeu de données et un modèle de langue pré-entraîné pour explorer le dédale non structuré des données administratives françaises
Thomas Sebbag | Solen Quiniou | Nicolas Stucky | Emmanuel Morin
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés

Les modèles de langue pré-entraînés (PLM) sont largement utilisés en traitement automatique du langage naturel (TALN), mais peu adaptés aux textes administratifs, souvent non standardisés et spécialisés. En France, l’absence de réglementation uniforme et l’hétérogénéité des sources compliquent le traitement des documents administratifs. Pour pallier ce problème, nous proposons AdminBERT, le premier modèle de langue pré-entraîné en français dédié aux documents administratifs. Nous évaluons AdminBERT sur la tâche de reconnaissance des entités nommées (REN), en le comparant à des modèles génériques, un grand modèle de langue (LLM) et une variante du modèle BERT. Nos résultats montrent qu’un pré-entraînement sur des textes administratifs améliore significativement la reconnaissance des entités nommées. Nous mettons à disposition AdminBERT, AdminSet (un corpus de pré-entraînement) et AdminSet-NER, le premier jeu de données annoté pour la REN sur des textes administratifs français.

2024

BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains
Yanis Labrak | Adrien Bazoge | Emmanuel Morin | Pierre-Antoine Gourraud | Mickael Rouvier | Richard Dufour
Findings of the Association for Computational Linguistics: ACL 2024

Large Language Models (LLMs) have demonstrated remarkable versatility in recent years, offering potential applications across specialized domains such as healthcare and medicine. Despite the availability of various open-source LLMs tailored for health contexts, adapting general-purpose LLMs to the medical domain presents significant challenges.In this paper, we introduce BioMistral, an open-source LLM tailored for the biomedical domain, utilizing Mistral as its foundation model and further pre-trained on PubMed Central. We conduct a comprehensive evaluation of BioMistral on a benchmark comprising 10 established medical question-answering (QA) tasks in English. We also explore lightweight models obtained through quantization and model merging approaches. Our results demonstrate BioMistral’s superior performance compared to existing open-source medical models and its competitive edge against proprietary counterparts. Finally, to address the limited availability of data beyond English and to assess the multilingual generalization of medical LLMs, we automatically translated and evaluated this benchmark into 7 other languages. This marks the first large-scale multilingual evaluation of LLMs in the medical domain. Datasets, multilingual evaluation benchmarks, scripts, and all the models obtained during our experiments are freely released.

DrBenchmark: A Large Language Understanding Evaluation Benchmark for French Biomedical Domain
Yanis Labrak | Adrien Bazoge | Oumaima El Khettari | Mickael Rouvier | Pacome Constant Dit Beaufils | Natalia Grabar | Béatrice Daille | Solen Quiniou | Emmanuel Morin | Pierre-Antoine Gourraud | Richard Dufour
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

The biomedical domain has sparked a significant interest in the field of Natural Language Processing (NLP), which has seen substantial advancements with pre-trained language models (PLMs). However, comparing these models has proven challenging due to variations in evaluation protocols across different models. A fair solution is to aggregate diverse downstream tasks into a benchmark, allowing for the assessment of intrinsic PLMs qualities from various perspectives. Although still limited to few languages, this initiative has been undertaken in the biomedical field, notably English and Chinese. This limitation hampers the evaluation of the latest French biomedical models, as they are either assessed on a minimal number of tasks with non-standardized protocols or evaluated using general downstream tasks. To bridge this research gap and account for the unique sensitivities of French, we present the first-ever publicly available French biomedical language understanding benchmark called DrBenchmark. It encompasses 20 diversified tasks, including named-entity recognition, part-of-speech tagging, question-answering, semantic textual similarity, or classification. We evaluate 8 state-of-the-art pre-trained masked language models (MLMs) on general and biomedical-specific data, as well as English specific MLMs to assess their cross-lingual capabilities. Our experiments reveal that no single model excels across all tasks, while generalist models are sometimes still competitive.

Traitement Automatique des Langues, Volume 65, Numéro 1 : Varia [Varia]
Maxime Amblard | Cécile Fabre | Emmanuel Morin | Sophie Rosset
Traitement Automatique des Langues, Volume 65, Numéro 1 : Varia [Varia]

2023

DrBERT: A Robust Pre-trained Model in French for Biomedical and Clinical domains
Yanis Labrak | Adrien Bazoge | Richard Dufour | Mickael Rouvier | Emmanuel Morin | Béatrice Daille | Pierre-Antoine Gourraud
Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

In recent years, pre-trained language models (PLMs) achieve the best performance on a wide range of natural language processing (NLP) tasks. While the first models were trained on general domain data, specialized ones have emerged to more effectively treat specific domains. In this paper, we propose an original study of PLMs in the medical domain on French language. We compare, for the first time, the performance of PLMs trained on both public data from the web and private data from healthcare establishments. We also evaluate different learning strategies on a set of biomedical tasks. In particular, we show that we can take advantage of already existing biomedical PLMs in a foreign language by further pre-train it on our targeted data. Finally, we release the first specialized PLMs for the biomedical field in French, called DrBERT, as well as the largest corpus of medical data under free license on which these models are trained.

DrBERT: Un modèle robuste pré-entraîné en français pour les domaines biomédical et clinique
Yanis Labrak | Adrien Bazoge | Richard Dufour | Mickael Rouvier | Emmanuel Morin | Béatrice Daille | Pierre-Antoine Gourraud
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale

Ces dernières années, les modèles de langage pré-entraînés ont obtenu les meilleures performances sur un large éventail de tâches de traitement automatique du langage naturel (TALN). Alors que les premiers modèles ont été entraînés sur des données issues de domaines généraux, des modèles spécialisés sont apparus pour traiter plus efficacement des domaines spécifiques. Dans cet article, nous proposons une étude originale de modèles de langue dans le domaine médical en français. Nous comparons pour la première fois les performances de modèles entraînés sur des données publiques issues du web et sur des données privées issues d’établissements de santé. Nous évaluons également différentes stratégies d’apprentissage sur un ensemble de tâches biomédicales. Enfin, nous publions les premiers modèles spécialisés pour le domaine biomédical en français, appelés DrBERT, ainsi que le plus grand corpus de données médicales sous licence libre sur lequel ces modèles sont entraînés.

La pré-annotation automatique de textes cliniques comme support au dialogue avec les experts du domaine lors de la mise au point d’un schéma d’annotation
Virgile Barthet | Marie-José Aroulanda | Laura Monceaux-Cachard | Christine Jacquin | Cyril Grouin | Johann Gutton | Guillaume Hocquet | Pascal De Groote | Michel Komajda | Emmanuel Morin | Pierre Zweigenbaum
Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023

La pré-annotation automatique de textes est une tâche essentielle qui peut faciliter l’annotationd’un corpus de textes. Dans le contexte de la cardiologie, l’annotation est une tâche complexe quinécessite des connaissances approfondies dans le domaine et une expérience pratique dans le métier.Pré-annoter les textes vise à diminuer le temps de sollicitation des experts, facilitant leur concentrationsur les aspects plus critiques de l’annotation. Nous rapportons ici une expérience de pré-annotationde textes cliniques en cardiologie : nous présentons ses modalités et les observations que nous enretirons sur l’interaction avec les experts du domaine et la mise au point du schéma d’an

Actes de CORIA-TALN 2023. Actes du Défi Fouille de Textes@TALN2023
Adrien Bazoge | Béatrice Daille | Richard Dufour | Yanis Labrak | Emmanuel Morin | Mickael Rouvier
Actes de CORIA-TALN 2023. Actes du Défi Fouille de Textes@TALN2023

Tâches et systèmes de détection automatique des réponses correctes dans des QCMs liés au domaine médical : Présentation de la campagne DEFT 2023
Yanis Labrak | Adrien Bazoge | Béatrice Daille | Richard Dufour | Emmanuel Morin | Mickael Rouvier
Actes de CORIA-TALN 2023. Actes du Défi Fouille de Textes@TALN2023

L’édition 2023 du DÉfi Fouille de Textes (DEFT) s’est concentrée sur le développement de méthodes permettant de choisir automatiquement des réponses dans des questions à choix multiples (QCMs) en français. Les approches ont été évaluées sur le corpus FrenchMedMCQA, intégrant un ensemble de QCMs avec, pour chaque question, cinq réponses potentielles, dans le cadre d’annales d’examens de pharmacie.Deux tâches ont été proposées. La première consistait à identifier automatiquement l’ensemble des réponses correctes à une question. Les résultats obtenus, évalués selon la métrique de l’Exact Match Ratio (EMR), variaient de 9,97% à 33,76%, alors que les performances en termes de distance de Hamming s’échelonnaient de 24,93 à 52,94. La seconde tâche visait à identifier automatiquement le nombre exact de réponses correctes. Les résultats, quant à eux, étaient évalués d’une part avec la métrique de F1-Macro, variant de 13,26% à 42,42%, et la métrique (Accuracy), allant de 47,43% à 68,65%. Parmi les approches variées proposées par les six équipes participantes à ce défi, le meilleur système s’est appuyé sur un modèle de langage large de type LLaMa affiné en utilisant la méthode d’adaptation LoRA.

Traitement Automatique des Langues, Volume 64, Numéro 1 : Varia [Varia]
Maxime Amblard | Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 64, Numéro 1 : Varia [Varia]

2022

About Evaluating Bilingual Lexicon Induction
Martin Laville | Emmanuel Morin | Phillippe Langlais
Proceedings of the BUCC Workshop within LREC 2022

With numerous new methods proposed recently, the evaluation of Bilingual Lexicon Induction have been quite hazardous and inconsistent across works. Some studies proposed some guidance to sanitize this; yet, they are not necessarily followed by practitioners. In this study, we try to gather these different recommendations and add our owns, with the aim to propose an unified evaluation protocol. We further show that the easiness of a benchmark while being correlated to the proximity of the language pairs being considered, is even more conditioned on the graphical similarities within the test word pairs.

Graph Neural Networks for Adapting Off-the-shelf General Domain Language Models to Low-Resource Specialised Domains
Merieme Bouhandi | Emmanuel Morin | Thierry Hamon
Proceedings of the 2nd Workshop on Deep Learning on Graphs for Natural Language Processing (DLG4NLP 2022)

Language models encode linguistic proprieties and are used as input for more specific models. Using their word representations as-is for specialised and low-resource domains might be less efficient. Methods of adapting them exist, but these models often overlook global information about how words, terms, and concepts relate to each other in a corpus due to their strong reliance on attention. We consider that global information can influence the results of the downstream tasks, and combination with contextual information is performed using graph convolution networks or GCN built on vocabulary graphs. By outperforming baselines, we show that this architecture is profitable for domain-specific tasks.

Adaptation au domaine de modèles de langue à l’aide de réseaux à base de graphes (Graph Neural Networks for Adapting General Domain Language Modèles Specialised Corpora)
Merieme Bouhandi | Emmanuel Morin | Thierry Hamon
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Les modèles de langue prodonds encodent les propriétés linguistiques et sont utilisés comme entrée pour des modèles plus spécifiques. Utiliser leurs représentations de mots telles quelles pour des domaines peu dotés se révèle être moins efficace. De plus, ces modèles négligent souvent les informations globales sur le vocabulaire au profit d’une plus forte dépendance à l’attention. Nous considérons que ces informations influent sur les résultats des tâches en aval. Leur combinaison avec les représentations contextuelles est effectuée à l’aide de réseaux de neurones à base de graphes. Nous montrons que l’utilité de cette combinaison qui surpassent les performances de baselines.

FrenchMedMCQA: A French Multiple-Choice Question Answering Dataset for Medical domain
Yanis Labrak | Adrien Bazoge | Richard Dufour | Beatrice Daille | Pierre-Antoine Gourraud | Emmanuel Morin | Mickael Rouvier
Proceedings of the 13th International Workshop on Health Text Mining and Information Analysis (LOUHI)

This paper introduces FrenchMedMCQA, the first publicly available Multiple-Choice Question Answering (MCQA) dataset in French for medical domain. It is composed of 3,105 questions taken from real exams of the French medical specialization diploma in pharmacy, mixing single and multiple answers. Each instance of the dataset contains an identifier, a question, five possible answers and their manual correction(s). We also propose first baseline models to automatically process this MCQA task in order to report on the current performances and to highlight the difficulty of the task. A detailed analysis of the results showed that it is necessary to have representations adapted to the medical domain or to the MCQA task: in our case, English specialized models yielded better results than generic French ones, even though FrenchMedMCQA is in French. Corpus, models and tools are available online.

Building Comparable Corpora for Assessing Multi-Word Term Alignment
Omar Adjali | Emmanuel Morin | Pierre Zweigenbaum
Proceedings of the Thirteenth Language Resources and Evaluation Conference

Recent work has demonstrated the importance of dealing with Multi-Word Terms (MWTs) in several Natural Language Processing applications. In particular, MWTs pose serious challenges for alignment and machine translation systems because of their syntactic and semantic properties. Thus, developing algorithms that handle MWTs is becoming essential for many NLP tasks. However, the availability of bilingual and more generally multi-lingual resources is limited, especially for low-resourced languages and in specialized domains. In this paper, we propose an approach for building comparable corpora and bilingual term dictionaries that help evaluate bilingual term alignment in comparable corpora. To that aim, we exploit parallel corpora to perform automatic bilingual MWT extraction and comparable corpus construction. Parallel information helps to align bilingual MWTs and makes it easier to build comparable specialized sub-corpora. Experimental validation on an existing dataset and on manually annotated data shows the interest of the proposed methodology.

Combination of Contextualized and Non-Contextualized Layers for Lexical Substitution in French
Kévin Espasa | Emmanuel Morin | Olivier Hamon
Proceedings of the Thirteenth Language Resources and Evaluation Conference

Lexical substitution task requires to substitute a target word by candidates in a given context. Candidates must keep meaning and grammatically of the sentence. The task, introduced in the SemEval 2007, has two objectives. The first objective is to find a list of substitutes for a target word. This list of substitutes can be obtained with lexical resources like WordNet or generated with a pre-trained language model. The second objective is to rank these substitutes using the context of the sentence. Most of the methods use vector space models or more recently embeddings to rank substitutes. Embedding methods use high contextualized representation. This representation can be over contextualized and in this way overlook good substitute candidates which are more similar on non-contextualized layers. SemDis 2014 introduced the lexical substitution task in French. We propose an application of the state-of-the-art method based on BERT in French and a novel method using contextualized and non-contextualized layers to increase the suggestion of words having a lower probability in a given context but that are more semantically similar. Experiments show our method increases the BERT based system on the OOT measure but decreases on the BEST measure in the SemDis 2014 benchmark.

Traitement Automatique des Langues, Volume 63, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 63, Numéro 1 : Varia [Varia]

Traitement Automatique des Langues, Volume 63, Numéro 3 : Etats de l'art en TAL [Review articles in NLP]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 63, Numéro 3 : Etats de l'art en TAL [Review articles in NLP]

Préface [Editorial]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 63, Numéro 3 : Etats de l'art en TAL [Review articles in NLP]

2021

Traitement Automatique des Langues, Volume 62, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 62, Numéro 1 : Varia [Varia]

2020

TALN/LS2N Participation at the BUCC Shared Task: Bilingual Dictionary Induction from Comparable Corpora
Martin Laville | Amir Hazem | Emmanuel Morin
Proceedings of the 13th Workshop on Building and Using Comparable Corpora

This paper describes the TALN/LS2N system participation at the Building and Using Comparable Corpora (BUCC) shared task. We first introduce three strategies: (i) a word embedding approach based on fastText embeddings; (ii) a concatenation approach using both character Skip-Gram and character CBOW models, and finally (iii) a cognates matching approach based on an exact match string similarity. Then, we present the applied strategy for the shared task which consists in the combination of the embeddings concatenation and the cognates matching approaches. The covered languages are French, English, German, Russian and Spanish. Overall, our system mixing embeddings concatenation and perfect cognates matching obtained the best results while compared to individual strategies, except for English-Russian and Russian-English language pairs for which the concatenation approach was preferred.

Data Selection for Bilingual Lexicon Induction from Specialized Comparable Corpora
Martin Laville | Amir Hazem | Emmanuel Morin | Phillippe Langlais
Proceedings of the 28th International Conference on Computational Linguistics

Narrow specialized comparable corpora are often small in size. This particularity makes it difficult to build efficient models to acquire translation equivalents, especially for less frequent and rare words. One way to overcome this issue is to enrich the specialized corpora with out-of-domain resources. Although some recent studies have shown improvements using data augmentation, the enrichment method was roughly conducted by adding out-of-domain data with no particular attention given to how to enrich words and how to do it optimally. In this paper, we contrast several data selection techniques to improve bilingual lexicon induction from specialized comparable corpora. We first apply two well-established data selection techniques often used in machine translation that is: Tf-Idf and cross entropy. Then, we propose to exploit BERT for data selection. Overall, all the proposed techniques improve the quality of the extracted bilingual lexicons by a large margin. The best performing model is the cross entropy, obtaining a gain of about 4 points in MAP while decreasing computation time by a factor of 10.

Où en sommes-nous dans la reconnaissance des entités nommées structurées à partir de la parole ? (Where are we in Named Entity Recognition from speech ?)
Antoine Caubrière | Sophie Rosset | Yannick Estève | Antoine Laurent | Emmanuel Morin
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

La reconnaissance des entités nommées (REN) à partir de la parole est traditionnellement effectuée par l’intermédiaire d’une chaîne de composants, exploitant un système de reconnaissance de la parole (RAP), puis un système de REN appliqué sur les transcriptions automatiques. Les dernières données disponibles pour la REN structurées à partir de la parole en français proviennent de la campagne d’évaluation ETAPE en 2012. Depuis la publication des résultats, des améliorations majeures ont été réalisées pour les systèmes de REN et de RAP. Notamment avec le développement des systèmes neuronaux. De plus, certains travaux montrent l’intérêt des approches de bout en bout pour la tâche de REN dans la parole. Nous proposons une étude des améliorations en RAP et REN dans le cadre d’une chaîne de composants, ainsi qu’une nouvelle approche en trois étapes. Nous explorons aussi les capacités d’une approche bout en bout pour la REN structurées. Enfin, nous comparons ces deux types d’approches à l’état de l’art de la campagne ETAPE. Nos résultats montrent l’intérêt de l’approche bout en bout, qui reste toutefois en deçà d’une chaîne de composants entièrement mise à jour.

Where are we in Named Entity Recognition from Speech?
Antoine Caubrière | Sophie Rosset | Yannick Estève | Antoine Laurent | Emmanuel Morin
Proceedings of the Twelfth Language Resources and Evaluation Conference

Named entity recognition (NER) from speech is usually made through a pipeline process that consists in (i) processing audio using an automatic speech recognition system (ASR) and (ii) applying a NER to the ASR outputs. The latest data available for named entity extraction from speech in French were produced during the ETAPE evaluation campaign in 2012. Since the publication of ETAPE’s campaign results, major improvements were done on NER and ASR systems, especially with the development of neural approaches for both of these components. In addition, recent studies have shown the capability of End-to-End (E2E) approach for NER / SLU tasks. In this paper, we propose a study of the improvements made in speech recognition and named entity recognition for pipeline approaches. For this type of systems, we propose an original 3-pass approach. We also explore the capability of an E2E system to do structured NER. Finally, we compare the performances of ETAPE’s systems (state-of-the-art systems in 2012) with the performances obtained using current technologies. The results show the interest of the E2E approach, which however remains below an updated pipeline approach.

Traitement Automatique des Langues, Volume 61, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 61, Numéro 1 : Varia [Varia]

2019

Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs

Curriculum d’apprentissage : reconnaissance d’entités nommées pour l’extraction de concepts sémantiques (Curriculum learning : named entity recognition for semantic concept extraction)
Antoine Caubrière | Natalia Tomashenko | Yannick Estève | Antoine Laurent | Emmanuel Morin
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs

Dans cet article, nous présentons une approche de bout en bout d’extraction de concepts sémantiques de la parole. En particulier, nous mettons en avant l’apport d’une chaîne d’apprentissage successif pilotée par une stratégie de curriculum d’apprentissage. Dans la chaîne d’apprentissage mise en place, nous exploitons des données françaises annotées en entités nommées que nous supposons être des concepts plus génériques que les concepts sémantiques liés à une application informatique spécifique. Dans cette étude, il s’agit d’extraire des concepts sémantiques dans le cadre de la tâche MEDIA. Pour renforcer le système proposé, nous exploitons aussi des stratégies d’augmentation de données, un modèle de langage 5-gramme, ainsi qu’un mode étoile aidant le système à se concentrer sur les concepts et leurs valeurs lors de l’apprentissage. Les résultats montrent un intérêt à l’utilisation des données d’entités nommées, permettant un gain relatif allant jusqu’à 6,5 %.

Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume III : RECITAL
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume III : RECITAL

Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume IV : Démonstrations
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume IV : Démonstrations

Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)

Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Terminologie et Intelligence Artificielle (atelier TALN-RECITAL \& IC)
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Terminologie et Intelligence Artificielle (atelier TALN-RECITAL \& IC)

Traitement Automatique des Langues, Volume 60, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 60, Numéro 1 : Varia [Varia]

2018

Alignement de termes de longueur variable en corpus comparables spécialisés (Alignment of variable length terms in specialized comparable corpora)
Jingshu Liu | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Nous proposons dans cet article une adaptation de l’approche compositionnelle étendue capable d’aligner des termes de longueurs variables à partir de corpus comparables, en modifiant la représentation des termes complexes. Nous proposons également de nouveaux modes de pondération pour l’approche standard qui améliorent les résultats des approches état de l’art pour les termes simples et complexes en domaine de spécialité.

Ordonnancement de réponses dans les systèmes de dialogue basé sur une similarité contexte/réponse (Response ranking in dialogue systems based on context-response similarity)
Basma El Amel Boussaha | Nicolas Hernandez | Christine Jacquin | Emmanuel Morin
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Construire des systèmes de dialogue qui conversent avec les humains afin de les aider dans leurs tâches quotidiennes est devenu une priorité. Certains de ces systèmes produisent des dialogues en cherchant le meilleur énoncé (réponse) parmi un ensemble d’énoncés candidats. Le choix de la réponse est conditionné par l’historique de la conversation appelé contexte. Ces systèmes ordonnent les énoncés candidats par leur adéquation au contexte, le meilleur est ensuite choisi. Les approches existantes à base de réseaux de neurones profonds sont performantes pour cette tâche. Dans cet article, nous améliorons une approche état de l’art à base d’un dual encodeur LSTM. En se basant sur la similarité sémantique entre le contexte et la réponse, notre approche apprend à mieux distinguer les bonnes réponses des mauvaises. Les résultats expérimentaux sur un large corpus de chats d’Ubuntu montrent une amélioration significative de 7, 6 et 2 points sur le Rappel@(1, 2 et 5) respectivement par rapport au meilleur système état de l’art.

Décodeur neuronal pour la transcription de documents manuscrits anciens (Neural decoder for the transcription of historical handwritten documents)
Adeline Granet | Emmanuel Morin | Harold Mouchère | Solen Quiniou | Christian Viard-Gaudin
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

L’absence de données annotées peut être une difficulté majeure lorsque l’on s’intéresse à l’analyse de documents manuscrits anciens. Pour contourner cette difficulté, nous proposons de diviser le problème en deux, afin de pouvoir s’appuyer sur des données plus facilement accessibles. Dans cet article nous présentons la partie décodeur d’un encodeur-décodeur multimodal utilisant l’apprentissage par transfert de connaissances pour la transcription des titres de pièces de la Comédie Italienne. Le décodeur transforme un vecteur de n-grammes au niveau caractères en une séquence de caractères correspondant à un mot. L’apprentissage par transfert de connaissances est réalisé principalement à partir d’une nouvelle ressource inexploitée contemporaine à la Comédie-Italienne et thématiquement proche ; ainsi que d’autres ressources couvrant d’autres domaines, des langages différents et même des périodes différentes. Nous obtenons 97,27% de caractères bien reconnus sur les données de la Comédie-Italienne, ainsi que 86,57% de mots correctement générés malgré une couverture de 67,58% uniquement entre la Comédie-Italienne et l’ensemble d’apprentissage. Les expériences montrent qu’un tel système peut être une approche efficace dans le cadre d’apprentissage par transfert.

Traitement Automatique des Langues, Volume 59, Numéro 1 : Varia [Varia]
Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 59, Numéro 1 : Varia [Varia]

Leveraging Meta-Embeddings for Bilingual Lexicon Extraction from Specialized Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of the 27th International Conference on Computational Linguistics

Recent evaluations on bilingual lexicon extraction from specialized comparable corpora have shown contrasted performance while using word embedding models. This can be partially explained by the lack of large specialized comparable corpora to build efficient representations. Within this context, we try to answer the following questions: First, (i) among the state-of-the-art embedding models, whether trained on specialized corpora or pre-trained on large general data sets, which one is the most appropriate model for bilingual terminology extraction? Second (ii) is it worth it to combine multiple embeddings trained on different data sets? For that purpose, we propose the first systematic evaluation of different word embedding models for bilingual terminology extraction from specialized comparable corpora. We emphasize how the character-based embedding model outperforms other models on the quality of the extracted bilingual lexicons. Further more, we propose a new efficient way to combine different embedding models learned from specialized and general-domain data sets. Our approach leads to higher performance than the best individual embedding model.

Transfer Learning for a Letter-Ngrams to Word Decoder in the Context of Historical Handwriting Recognition with Scarce Resources
Adeline Granet | Emmanuel Morin | Harold Mouchère | Solen Quiniou | Christian Viard-Gaudin
Proceedings of the 27th International Conference on Computational Linguistics

Lack of data can be an issue when beginning a new study on historical handwritten documents. In order to deal with this, we present the character-based decoder part of a multilingual approach based on transductive transfer learning for a historical handwriting recognition task on Italian Comedy Registers. The decoder must build a sequence of characters that corresponds to a word from a vector of letter-ngrams. As learning data, we created a new dataset from untapped resources that covers the same domain and period of our Italian Comedy data, as well as resources from common domains, periods, or languages. We obtain a 97.42% Character Recognition Rate and a 86.57% Word Recognition Rate on our Italian Comedy data, despite a lexical coverage of 67% between the Italian Comedy data and the training data. These results show that an efficient system can be obtained by a carefully selecting the datasets used for the transfer learning.

Towards a unified framework for bilingual terminology extraction of single-word and multi-word terms
Jingshu Liu | Emmanuel Morin | Peña Saldarriaga
Proceedings of the 27th International Conference on Computational Linguistics

Extracting a bilingual terminology for multi-word terms from comparable corpora has not been widely researched. In this work we propose a unified framework for aligning bilingual terms independently of the term lengths. We also introduce some enhancements to the context-based and the neural network based approaches. Our experiments show the effectiveness of our enhancements of previous works and the system can be adapted in specialized domains.

Crowdsourcing-based Annotation of the Accounting Registers of the Italian Comedy
Adeline Granet | Benjamin Hervy | Geoffrey Roman-Jimenez | Marouane Hachicha | Emmanuel Morin | Harold Mouchère | Solen Quiniou | Guillaume Raschia | Françoise Rubellin | Christian Viard-Gaudin
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

2017

Traitement Automatique des Langues, Volume 58, Numéro 1 : Varia [Varia]
Jean-Luc Minel | Emmanuel Morin | Pascale Sébillot | Isabelle Tellier
Traitement Automatique des Langues, Volume 58, Numéro 1 : Varia [Varia]

Préambule [Preamble]
Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 58, Numéro 3 : Traitement automatique de l'arabe et des langues apparentées [NLP for Arabic and Related Languages]

Bilingual Word Embeddings for Bilingual Terminology Extraction from Specialized Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers)

Bilingual lexicon extraction from comparable corpora is constrained by the small amount of available data when dealing with specialized domains. This aspect penalizes the performance of distributional-based approaches, which is closely related to the reliability of word’s cooccurrence counts extracted from comparable corpora. A solution to avoid this limitation is to associate external resources with the comparable corpus. Since bilingual word embeddings have recently shown efficient models for learning bilingual distributed representation of words, we explore different word embedding models and show how a general-domain comparable corpus can enrich a specialized comparable corpus via neural networks

Language-based Construction of Explorable News Graphs for Journalists
Rémi Bois | Guillaume Gravier | Eric Jamet | Emmanuel Morin | Pascale Sébillot | Maxime Robert
Proceedings of the 2017 EMNLP Workshop: Natural Language Processing meets Journalism

Faced with ever-growing news archives, media professionals are in need of advanced tools to explore the information surrounding specific events. This problem is most commonly answered by browsing news datasets, going from article to article and viewing unaltered original content. In this article, we introduce an efficient way to generate links between news items, allowing such browsing through an easily explorable graph, and enrich this graph by automatically typing links in order to inform the user on the nature of the relation between two news pieces. User evaluations are conducted on real world data with journalists in order to assess for the interest of both the graph representation and link typing in a press reviewing task, showing the system to be of significant help for their work.

2016

Comparaison d’approches de classification automatique des actes de dialogue dans un corpus de conversations écrites en ligne sur différentes modalités (A comparison of automatic dialog act recognition approaches in a multimodal corpus of online written conversations)
Soufian Salim | Nicolas Hernandez | Emmanuel Morin
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

L’analyse des conversations écrites porteuses de demandes d’assistance est un enjeu important pour le développement de nouvelles technologies liées au support client. Dans cet article, nous nous intéressons à l’analyse d’un même type d’échange sur un canal différent : les conversations se déroulant sur les plate-formes d’entraide entre utilisateurs. Nous comparons des approches de classification supervisées sur trois modalités des CMR 1 différentes à même thématique : des courriels, forums et chats issus de la communauté Ubuntu. Le système emploie une taxonomie fine basée sur le schéma DIT++. D’autres expériences sont détaillées, et nous rapportons les résultats obtenus avec différentes approches et différents traits sur les différentes parties de notre corpus multimodal.

Extraction de lexiques bilingues à partir de corpus comparables spécialisés à travers une langue pivot (Bilingual lexicon extraction from specialized comparable corpora using a pivot language)
Alexis Linard | Emmanuel Morin | Béatrice Daille
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

L’extraction de lexiques bilingues à partir de corpus comparables se réalise traditionnellement en s’appuyant sur deux langues. Des travaux précédents en extraction de lexiques bilingues à partir de corpus parallèles ont démontré que l’utilisation de plus de deux langues peut être utile pour améliorer la qualité des alignements extraits. Nos travaux montrent qu’il est possible d’utiliser la même stratégie pour des corpus comparables. Nous avons défini deux méthodes originales impliquant des langues pivots et nous les avons évaluées sur quatre langues et deux langues pivots en particulier. Nos expérimentations ont montré que lorsque l’alignement entre la langue source et la langue pivot est de bonne qualité, l’extraction du lexique en langue cible s’en trouve améliorée.

Extraction d’opinions ambigües dans des corpus d’avis clients (Ambiguous opinion extraction in user feedbacks)
Joseph Lark | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Nous détectons dans des corpus d’avis clients en français des expressions d’opinion ne contenant pas de marqueur d’opinion explicitement positif ou négatif. Nous procédons pour cela en deux étapes en nous appuyant sur des méthodes existantes : nous identifions ces expressions à l’aide de fenêtres de mots puis nous les classifions en polarité. Le processus global présente des résultats satisfaisants pour notre cadre applicatif demandant une haute précision.

Efficient Data Selection for Bilingual Terminology Extraction from Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers

Comparable corpora are the main alternative to the use of parallel corpora to extract bilingual lexicons. Although it is easier to build comparable corpora, specialized comparable corpora are often of modest size in comparison with corpora issued from the general domain. Consequently, the observations of word co-occurrences which are the basis of context-based methods are unreliable. We propose in this article to improve word co-occurrences of specialized comparable corpora and thus context representation by using general-domain data. This idea, which has been already used in machine translation task for more than a decade, is not straightforward for the task of bilingual lexicon extraction from specific-domain comparable corpora. We go against the mainstream of this task where many studies support the idea that adding out-of-domain documents decreases the quality of lexicons. Our empirical evaluation shows the advantages of this approach which induces a significant gain in the accuracy of extracted lexicons.

Improving Bilingual Terminology Extraction from Comparable Corpora via Multiple Word-Space Models
Amir Hazem | Emmanuel Morin
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

There is a rich flora of word space models that have proven their efficiency in many different applications including information retrieval (Dumais, 1988), word sense disambiguation (Schutze, 1992), various semantic knowledge tests (Lund et al., 1995; Karlgren, 2001), and text categorization (Sahlgren, 2005). Based on the assumption that each model captures some aspects of word meanings and provides its own empirical evidence, we present in this paper a systematic exploration of the principal corpus-based word space models for bilingual terminology extraction from comparable corpora. We find that, once we have identified the best procedures, a very simple combination approach leads to significant improvements compared to individual models.

2015

CANÉPHORE : un corpus français pour la fouille d’opinion ciblée
Joseph Lark | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

La fouille d’opinion ciblée (aspect-based sentiment analysis) fait l’objet ces dernières années d’un intérêt particulier, visible dans les sujets des récentes campagnes d’évaluation comme SemEval 2014 et 2015 ou bien DEFT 2015. Cependant les corpus annotés et publiquement disponibles permettant l’évaluation de cette tâche sont rares. Dans ce travail nous présentons en premier lieu un corpus français librement accessible de 10 000 tweets manuellement annotés. Nous accompagnons ce corpus de résultats de référence pour l’extraction de marqueurs d’opinion non supervisée. Nous présentons ensuite une méthode améliorant les résultats de cette extraction, en suivant une approche semi-supervisée.

Extraction de Contextes Riches en Connaissances en corpus spécialisés
Firas Hmida | Emmanuel Morin | Béatrice Daille
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les banques terminologiques et les dictionnaires sont des ressources précieuses qui facilitent l’accès aux connaissances des domaines spécialisés. Ces ressources sont souvent assez pauvres et ne proposent pas toujours pour un terme à illustrer des exemples permettant d’appréhender le sens et l’usage de ce terme. Dans ce contexte, nous proposons de mettre en œuvre la notion de Contextes Riches en Connaissances (CRC) pour extraire directement de corpus spécialisés des exemples de contextes illustrant son usage. Nous définissons un cadre unifié pour exploiter tout à la fois des patrons de connaissances et des collocations avec une qualité acceptable pour une révision humaine.

Vers une typologie de liens entre contenus journalistiques
Remi Bois | Guillaume Gravier | Emmanuel Morin | Pascale Sébillot
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Nous présentons une typologie de liens pour un corpus multimédia ancré dans le domaine journalistique. Bien que plusieurs typologies aient été créées et utilisées par la communauté, aucune ne permet de répondre aux enjeux de taille et de variété soulevés par l’utilisation d’un corpus large comprenant des textes, des vidéos, ou des émissions radiophoniques. Nous proposons donc une nouvelle typologie, première étape visant à la création et la catégorisation automatique de liens entre des fragments de documents afin de proposer de nouveaux modes de navigation au sein d’un grand corpus. Plusieurs exemples d’instanciation de la typologie sont présentés afin d’illustrer son intérêt.

Attempting to Bypass Alignment from Comparable Corpora via Pivot Language
Alexis Linard | Béatrice Daille | Emmanuel Morin
Proceedings of the Eighth Workshop on Building and Using Comparable Corpora

LINA: Identifying Comparable Documents from Wikipedia
Emmanuel Morin | Amir Hazem | Florian Boudin | Elizaveta Loginova-Clouet
Proceedings of the Eighth Workshop on Building and Using Comparable Corpora

2014

Extraction de lexiques bilingues à partir de corpus comparables spécialisés : étude du contexte lexical [Bilingual lexicon extraction from specialized comparable corpora: a study of lexical context]
Amir Hazem | Emmanuel Morin
Traitement Automatique des Langues, Volume 55, Numéro 1 : Varia [Varia]

Looking at Unbalanced Specialized Comparable Corpora for Bilingual Lexicon Extraction
Emmanuel Morin | Amir Hazem
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

2013

Intégration de la reconnaissance des entités nommées au processus de reconnaissance de la parole [Integration of named entity recognition to automatic speech recognition]
Mahamed Hatmi | Christine Jacquin | Sylvain Meignier | Emmanuel Morin | Solen Quiniou
Traitement Automatique des Langues, Volume 54, Numéro 2 : Entité Nommées [Named Entities]

Proceedings of TALN 2013 (Volume 1: Long Papers)
Emmanuel Morin | Yannick Estève
Proceedings of TALN 2013 (Volume 1: Long Papers)

Bilingual Lexicon Extraction from Comparable Corpora by Combining Contextual Representations (Extraction de lexiques bilingues à partir de corpus comparables par combinaison de représentations contextuelles) [in French]
Amir Hazem | Emmanuel Morin
Proceedings of TALN 2013 (Volume 1: Long Papers)

Identification, Alignment, and Tranlsation of Relational Adjectives from Comparable Corpora (Identification, alignement, et traductions des adjectifs relationnels en corpus comparables) [in French]
Rima Harastani | Beatrice Daille | Emmanuel Morin
Proceedings of TALN 2013 (Volume 1: Long Papers)

Proceedings of TALN 2013 (Volume 2: Short Papers)
Emmanuel Morin | Yannick Estève
Proceedings of TALN 2013 (Volume 2: Short Papers)

Proceedings of TALN 2013 (Volume 3: System Demonstrations)
Emmanuel Morin | Yannick Estève
Proceedings of TALN 2013 (Volume 3: System Demonstrations)

Proceedings of TALN 2013 (Volume 4: Invited Conferences)
Emmanuel Morin | Yannick Estève
Proceedings of TALN 2013 (Volume 4: Invited Conferences)

Ranking Translation Candidates Acquired from Comparable Corpora
Rima Harastani | Béatrice Daille | Emmanuel Morin
Proceedings of the Sixth International Joint Conference on Natural Language Processing

Word Co-occurrence Counts Prediction for Bilingual Terminology Extraction from Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of the Sixth International Joint Conference on Natural Language Processing

Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression
Florian Boudin | Emmanuel Morin
Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies

A Comparison of Smoothing Techniques for Bilingual Lexicon Extraction from Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of the Sixth Workshop on Building and Using Comparable Corpora

2012

Identification of Fertile Translations in Comparable Corpora: A Morpho-Compositional Approach
Estelle Delpech | Béatrice Daille | Emmanuel Morin | Claire Lemaire
Proceedings of the 10th Conference of the Association for Machine Translation in the Americas: Research Papers

This paper defines a method for lexicon in the biomedical domain from comparable corpora. The method is based on compositional translation and exploits morpheme-level translation equivalences. It can generate translations for a large variety of morphologically constructed words and can also generate ’fertile’ translations. We show that fertile translations increase the overall quality of the extracted lexicon for English to French translation.

Extraction of Domain-Specific Bilingual Lexicon from Comparable Corpora: Compositional Translation and Ranking
Estelle Delpech | Béatrice Daille | Emmanuel Morin | Claire Lemaire
Proceedings of COLING 2012

Revising the Compositional Method for Terminology Acquisition from Comparable Corpora
Emmanuel Morin | Béatrice Daille
Proceedings of COLING 2012

Compositionnalité et contextes issus de corpus comparables pour la traduction terminologique (Compositionality and Context for Bilingual Lexicon Extraction from Comparable Corpora) [in French]
Emmanuel Morin | Béatrice Daille
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

Adaptive Dictionary for Bilingual Lexicon Extraction from Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

One of the main resources used for the task of bilingual lexicon extraction from comparable corpora is : the bilingual dictionary, which is considered as a bridge between two languages. However, no particular attention has been given to this lexicon, except its coverage, and the fact that it can be issued from the general language, the specialised one, or a mix of both. In this paper, we want to highlight the idea that a better consideration of the bilingual dictionary by studying its entries and filtering the non-useful ones, leads to a better lexicon extraction and thus, reach a higher precision. The experiments are conducted on a medical domain corpora. The French-English specialised corpus 'breast cancer' of 1 million words. We show that the empirical results obtained with our filtering process improve the standard approach traditionally dedicated to this task and are promising for future work.

2011

Degré de comparabilité, extraction lexicale bilingue et recherche d’information interlingue (Degree of comparability, bilingual lexical extraction and cross-language information retrieval)
Bo Li | Eric Gaussier | Emmanuel Morin | Amir Hazem
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous étudions dans cet article le problème de la comparabilité des documents composant un corpus comparable afin d’améliorer la qualité des lexiques bilingues extraits et les performances des systèmes de recherche d’information interlingue. Nous proposons une nouvelle approche qui permet de garantir un certain degré de comparabilité et d’homogénéité du corpus tout en préservant une grande part du vocabulaire du corpus d’origine. Nos expériences montrent que les lexiques bilingues que nous obtenons sont d’une meilleure qualité que ceux obtenus avec les approches précédentes, et qu’ils peuvent être utilisés pour améliorer significativement les systèmes de recherche d’information interlingue.

Métarecherche pour l’extraction lexicale bilingue à partir de corpus comparables (Metasearch for bilingual lexical extraction from comparable corpora)
Amir Hazem | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous présentons dans cet article une nouvelle manière d’aborder le problème de l’acquisition automatique de paires de mots en relation de traduction à partir de corpus comparables. Nous décrivons tout d’abord les approches standard et par similarité interlangue traditionnellement dédiées à cette tâche. Nous réinterprétons ensuite la méthode par similarité interlangue et motivons un nouveau modèle pour reformuler cette approche inspirée par les métamoteurs de recherche d’information. Les résultats empiriques que nous obtenons montrent que les performances de notre modèle sont toujours supérieures à celles obtenues avec l’approche par similarité interlangue, mais aussi comme étant compétitives par rapport à l’approche standard.

TTC TermSuite : une chaîne de traitement pour la fouille terminologique multilingue (TTC TermSuite: a processing chain for multilingual terminology mining)
Béatrice Daille | Christine Jacquin | Laura Monceaux | Emmanuel Morin | Jérome Rocheteau
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

Bilingual Lexicon Extraction from Comparable Corpora Enhanced with Parallel Corpora
Emmanuel Morin | Emmanuel Prochasson
Proceedings of the 4th Workshop on Building and Using Comparable Corpora: Comparable Corpora and the Web

Bilingual Lexicon Extraction from Comparable Corpora as Metasearch
Amir Hazem | Emmanuel Morin | Sebastian Peña Saldarriaga
Proceedings of the 4th Workshop on Building and Using Comparable Corpora: Comparable Corpora and the Web

2010

Multilinguisme et traitement automatique des langues [Multilinguism and natural language processing]
Holger Schwenk | Emmanuel Morin
Traitement Automatique des Langues, Volume 51, Numéro 2 : Multilinguisme et traitement automatique des langues [Multilingualism and Natural Language Processing]

2009

Apport d’un corpus comparable déséquilibré à l’extraction de lexiques bilingues
Emmanuel Morin
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Les principaux travaux en extraction de lexiques bilingues à partir de corpus comparables reposent sur l’hypothèse implicite que ces corpus sont équilibrés. Cependant, les différentes méthodes computationnelles associées sont relativement insensibles à la taille de chaque partie du corpus. Dans ce contexte, nous étudions l’influence que peut avoir un corpus comparable déséquilibré sur la qualité des terminologies bilingues extraites à travers différentes expériences. Nos résultats montrent que sous certaines conditions l’utilisation d’un corpus comparable déséquilibré peut engendrer un gain significatif dans la qualité des lexiques extraits.

Influence des points d’ancrage pour l’extraction lexicale bilingue à partir de corpus comparables spécialisés
Emmanuel Prochasson | Emmanuel Morin
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

L’extraction de lexiques bilingues à partir de corpus comparables affiche de bonnes performances pour des corpus volumineux mais chute fortement pour des corpus d’une taille plus modeste. Pour pallier cette faiblesse, nous proposons une nouvelle contribution au processus d’alignement lexical à partir de corpus comparables spécialisés qui vise à renforcer la significativité des contextes lexicaux en s’appuyant sur le vocabulaire spécialisé du domaine étudié. Les expériences que nous avons réalisées en ce sens montrent qu’une meilleure prise en compte du vocabulaire spécialisé permet d’améliorer la qualité des lexiques extraits.

Un nouveau schéma de pondération pour la catégorisation de documents manuscrits
Sebastián Peña Saldarriaga | Emmanuel Morin | Christian Viard-Gaudin
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les schémas de pondération utilisés habituellement en catégorisation de textes, et plus généralement en recherche d’information (RI), ne sont pas adaptés à l’utilisation de données liées à des textes issus d’un processus de reconnaissance de l’écriture. En particulier, les candidats-mot à la reconnaissance ne pourraient être exploités sans introduire de fausses occurrences de termes dans le document. Dans cet article nous présentons un nouveau schéma de pondération permettant d’exploiter les listes de candidats-mot. Il permet d’estimer le pouvoir discriminant d’un terme en fonction de la probabilité a posteriori d’un candidat-mot dans une liste de candidats. Les résultats montrent que le taux de classification de documents fortement dégradés peut être amélioré en utilisant le schéma proposé.

Anchor Points for Bilingual Lexicon Extraction from Small Comparable Corpora
Emmanuel Prochasson | Emmanuel Morin | Kyo Kageura
Proceedings of Machine Translation Summit XII: Posters

Points d’ancrage pour l’extraction lexicale bilingue à partir de petits corpus comparables spécialisés. Éléments de confiance pour la caractérisation des termes [Anchor points for bilingual extraction from small specialized comparable corpora]
Emmanuel Prochasson | Emmanuel Morin
Traitement Automatique des Langues, Volume 50, Numéro 1 : Varia [Varia]

Compilation of Specialized Comparable Corpora in French and Japanese
Lorraine Goeuriot | Emmanuel Morin | Béatrice Daille
Proceedings of the 2nd Workshop on Building and Using Comparable Corpora: from Parallel to Non-parallel Corpora (BUCC)

2008

An Effective Compositional Model for Lexical Alignment
Béatrice Daille | Emmanuel Morin
Proceedings of the Third International Joint Conference on Natural Language Processing: Volume-I

2007

Bilingual Terminology Mining - Using Brain, not brawn comparable corpora
Emmanuel Morin | Béatrice Daille | Koichi Takeuchi | Kyo Kageura
Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics

2006

Comparabilité de corpus et fouille terminologique multilingue [Corpus comparability and multilingual terminology Mining]
Emmanuel Morin | Béatrice Daille
Traitement Automatique des Langues, Volume 47, Numéro 1 : Varia [Varia]

2005

French-English Terminology Extraction from Comparable Corpora
Béatrice Daille | Emmanuel Morin
Second International Joint Conference on Natural Language Processing: Full Papers

2004

Extraction de terminologies bilingues à partir de corpus comparables
Emmanuel Morin | Samuel Dufour-Kowalski | Béatrice Daille
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article présente une méthode pour extraire, à partir de corpus comparables d’un domaine de spécialité, un lexique bilingue comportant des termes simples et complexes. Cette méthode extrait d’abord les termes complexes dans chaque langue, puis les aligne à l’aide de méthodes statistiques exploitant le contexte des termes. Après avoir rappelé les difficultés que pose l’alignement des termes complexes et précisé notre approche, nous présentons le processus d’extraction de terminologies bilingues adopté et les ressources utilisées pour nos expérimentations. Enfin, nous évaluons notre approche et démontrons son intérêt en particulier pour l’alignement de termes complexes non compositionnels.

French-English Multi-word Term Alignment Based on Lexical Context Analysis
Béatrice Daille | Samuel Dufour-Kowalski | Emmanuel Morin
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)

2003

Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Béatrice Daille | Emmanuel Morin
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Béatrice Daille | Emmanuel Morin
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Apport d’un modèle de langage statistique pour la reconnaissance de l’écriture manuscrite en ligne
Freddy Perraud | Emmanuel Morin | Christian Viard-Gaudin | Pierre-Michel Lallican
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Dans ce travail, nous étudions l’apport d’un modèle de langage pour améliorer les performances des systèmes de reconnaissance de l’écriture manuscrite en-ligne. Pour cela, nous avons exploré des modèles basés sur des approches statistiques construits par apprentissage sur des corpus écrits. Deux types de modèles ont été étudiés : les modèles n-grammes et ceux de type n-classes. En vue de l’intégration dans un système de faible capacité (engin nomade), un modèle n-classe combinant critères syntaxiques et contextuels a été défini, il a permis d’obtenir des résultats surpassant ceux donnés avec un modèle beaucoup plus lourd de type n-gramme. Les résultats présentés ici montrent qu’il est possible de prendre en compte les spécificités d’un langage en vue de reconnaître l’écriture manuscrite avec des modèles de taille tout à fait raisonnable.

Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels
Béatrice Daille | Emmanuel Morin
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels

Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Emmanuel Morin
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
Emmanuel Morin
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)

2002

Incremental Recognition and Referential Categorization of French Proper Names
Nordine Fourour | Emmanuel Morin | Béatrice Daille
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)

1999

Projecting Corpus-Based Semantic Links on a Thesaurus
Emmanuel Morin
Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics

Co-authors

Solen Quiniou 8

Pierre Zweigenbaum 8

Adrien Bazoge 7

Richard Dufour 7

Yannick Estève 7

Mickael Rouvier 7

Sebastián Peña Saldarriaga 7

Pierre-Antoine Gourraud 5

Christian Viard-Gaudin 5

Christine Jacquin 4

Emmanuel Prochasson 4

Antoine Caubrière 3

Adeline Granet 3

Antoine Laurent 3

Martin Laville 3

Harold Mouchère 3

Thomas Sebbag 3

Maxime Amblard 2

Florian Boudin 2

Mérième Bouhandi 2

Estelle Delpech 2

Samuel Dufour-Kowalski 2

Guillaume Gravier 2

Thierry Hamon 2

Rima Harastani 2

Nicolas Hernandez 2

Philippe Langlais 2

Claire Lemaire 2

Alexis Linard 2

Nicolas Stucky 2

Marie-José Aroulanda 1

Virgile Barthet 1

Basma El Amel Boussaha 1

Pacome Constant Dit Beaufils 1

Pascal De Groote 1

Oumaima El Khettari 1

Kévin Espasa 1

Nordine Fourour 1

Eric Gaussier 1

Lorraine Goeuriot 1

Natalia Grabar 1

Johann Gutton 1

Marouane Hachicha 1

Olivier Hamon 1

Mahamed Hatmi 1

Benjamin Hervy 1

Guillaume Hocquet 1

Michel Komajda 1

Pierre-Michel Lallican 1

Elizaveta Loginova-Clouet 1

Sylvain Meignier 1

Jean-Luc Minel 1

Laura Monceaux 1

Laura Monceaux-Cachard 1

Freddy Perraud 1

Guillaume Raschia 1

Maxime Robert 1

Jérôme Rocheteau 1

Geoffrey Roman-Jimenez 1

Françoise Rubellin 1

Soufian Salim 1

Holger Schwenk 1

Koichi Takeuchi 1

Isabelle Tellier 1

Natalia Tomashenko 1

Venues