Emmanuel Morin


2024

pdf bib
BioMistral: A Collection of Open-Source Pretrained Large Language Models for Medical Domains
Yanis Labrak | Adrien Bazoge | Emmanuel Morin | Pierre-Antoine Gourraud | Mickael Rouvier | Richard Dufour
Findings of the Association for Computational Linguistics: ACL 2024

Large Language Models (LLMs) have demonstrated remarkable versatility in recent years, offering potential applications across specialized domains such as healthcare and medicine. Despite the availability of various open-source LLMs tailored for health contexts, adapting general-purpose LLMs to the medical domain presents significant challenges.In this paper, we introduce BioMistral, an open-source LLM tailored for the biomedical domain, utilizing Mistral as its foundation model and further pre-trained on PubMed Central. We conduct a comprehensive evaluation of BioMistral on a benchmark comprising 10 established medical question-answering (QA) tasks in English. We also explore lightweight models obtained through quantization and model merging approaches. Our results demonstrate BioMistral’s superior performance compared to existing open-source medical models and its competitive edge against proprietary counterparts. Finally, to address the limited availability of data beyond English and to assess the multilingual generalization of medical LLMs, we automatically translated and evaluated this benchmark into 7 other languages. This marks the first large-scale multilingual evaluation of LLMs in the medical domain. Datasets, multilingual evaluation benchmarks, scripts, and all the models obtained during our experiments are freely released.

pdf bib
DrBenchmark: A Large Language Understanding Evaluation Benchmark for French Biomedical Domain
Yanis Labrak | Adrien Bazoge | Oumaima El Khettari | Mickael Rouvier | Pacome Constant Dit Beaufils | Natalia Grabar | Béatrice Daille | Solen Quiniou | Emmanuel Morin | Pierre-Antoine Gourraud | Richard Dufour
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

The biomedical domain has sparked a significant interest in the field of Natural Language Processing (NLP), which has seen substantial advancements with pre-trained language models (PLMs). However, comparing these models has proven challenging due to variations in evaluation protocols across different models. A fair solution is to aggregate diverse downstream tasks into a benchmark, allowing for the assessment of intrinsic PLMs qualities from various perspectives. Although still limited to few languages, this initiative has been undertaken in the biomedical field, notably English and Chinese. This limitation hampers the evaluation of the latest French biomedical models, as they are either assessed on a minimal number of tasks with non-standardized protocols or evaluated using general downstream tasks. To bridge this research gap and account for the unique sensitivities of French, we present the first-ever publicly available French biomedical language understanding benchmark called DrBenchmark. It encompasses 20 diversified tasks, including named-entity recognition, part-of-speech tagging, question-answering, semantic textual similarity, or classification. We evaluate 8 state-of-the-art pre-trained masked language models (MLMs) on general and biomedical-specific data, as well as English specific MLMs to assess their cross-lingual capabilities. Our experiments reveal that no single model excels across all tasks, while generalist models are sometimes still competitive.

2023

pdf bib
DrBERT: A Robust Pre-trained Model in French for Biomedical and Clinical domains
Yanis Labrak | Adrien Bazoge | Richard Dufour | Mickael Rouvier | Emmanuel Morin | Béatrice Daille | Pierre-Antoine Gourraud
Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

In recent years, pre-trained language models (PLMs) achieve the best performance on a wide range of natural language processing (NLP) tasks. While the first models were trained on general domain data, specialized ones have emerged to more effectively treat specific domains. In this paper, we propose an original study of PLMs in the medical domain on French language. We compare, for the first time, the performance of PLMs trained on both public data from the web and private data from healthcare establishments. We also evaluate different learning strategies on a set of biomedical tasks. In particular, we show that we can take advantage of already existing biomedical PLMs in a foreign language by further pre-train it on our targeted data. Finally, we release the first specialized PLMs for the biomedical field in French, called DrBERT, as well as the largest corpus of medical data under free license on which these models are trained.

pdf bib
DrBERT: Un modèle robuste pré-entraîné en français pour les domaines biomédical et clinique
Yanis Labrak | Adrien Bazoge | Richard Dufour | Mickael Rouvier | Emmanuel Morin | Béatrice Daille | Pierre-Antoine Gourraud
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale

Ces dernières années, les modèles de langage pré-entraînés ont obtenu les meilleures performances sur un large éventail de tâches de traitement automatique du langage naturel (TALN). Alors que les premiers modèles ont été entraînés sur des données issues de domaines généraux, des modèles spécialisés sont apparus pour traiter plus efficacement des domaines spécifiques. Dans cet article, nous proposons une étude originale de modèles de langue dans le domaine médical en français. Nous comparons pour la première fois les performances de modèles entraînés sur des données publiques issues du web et sur des données privées issues d’établissements de santé. Nous évaluons également différentes stratégies d’apprentissage sur un ensemble de tâches biomédicales. Enfin, nous publions les premiers modèles spécialisés pour le domaine biomédical en français, appelés DrBERT, ainsi que le plus grand corpus de données médicales sous licence libre sur lequel ces modèles sont entraînés.

pdf bib
La pré-annotation automatique de textes cliniques comme support au dialogue avec les experts du domaine lors de la mise au point d’un schéma d’annotation
Virgile Barthet | Marie-José Aroulanda | Laura Monceaux-Cachard | Christine Jacquin | Cyril Grouin | Johann Gutton | Guillaume Hocquet | Pascal De Groote | Michel Komajda | Emmanuel Morin | Pierre Zweigenbaum
Actes de CORIA-TALN 2023. Actes de l'atelier "Analyse et Recherche de Textes Scientifiques" (ARTS)@TALN 2023

La pré-annotation automatique de textes est une tâche essentielle qui peut faciliter l’annotationd’un corpus de textes. Dans le contexte de la cardiologie, l’annotation est une tâche complexe quinécessite des connaissances approfondies dans le domaine et une expérience pratique dans le métier.Pré-annoter les textes vise à diminuer le temps de sollicitation des experts, facilitant leur concentrationsur les aspects plus critiques de l’annotation. Nous rapportons ici une expérience de pré-annotationde textes cliniques en cardiologie : nous présentons ses modalités et les observations que nous enretirons sur l’interaction avec les experts du domaine et la mise au point du schéma d’an

pdf bib
Actes de CORIA-TALN 2023. Actes du Défi Fouille de Textes@TALN2023
Adrien Bazoge | Béatrice Daille | Richard Dufour | Yanis Labrak | Emmanuel Morin | Mickael Rouvier
Actes de CORIA-TALN 2023. Actes du Défi Fouille de Textes@TALN2023

pdf bib
Tâches et systèmes de détection automatique des réponses correctes dans des QCMs liés au domaine médical : Présentation de la campagne DEFT 2023
Yanis Labrak | Adrien Bazoge | Béatrice Daille | Richard Dufour | Emmanuel Morin | Mickael Rouvier
Actes de CORIA-TALN 2023. Actes du Défi Fouille de Textes@TALN2023

L’édition 2023 du DÉfi Fouille de Textes (DEFT) s’est concentrée sur le développement de méthodes permettant de choisir automatiquement des réponses dans des questions à choix multiples (QCMs) en français. Les approches ont été évaluées sur le corpus FrenchMedMCQA, intégrant un ensemble de QCMs avec, pour chaque question, cinq réponses potentielles, dans le cadre d’annales d’examens de pharmacie.Deux tâches ont été proposées. La première consistait à identifier automatiquement l’ensemble des réponses correctes à une question. Les résultats obtenus, évalués selon la métrique de l’Exact Match Ratio (EMR), variaient de 9,97% à 33,76%, alors que les performances en termes de distance de Hamming s’échelonnaient de 24,93 à 52,94. La seconde tâche visait à identifier automatiquement le nombre exact de réponses correctes. Les résultats, quant à eux, étaient évalués d’une part avec la métrique de F1-Macro, variant de 13,26% à 42,42%, et la métrique (Accuracy), allant de 47,43% à 68,65%. Parmi les approches variées proposées par les six équipes participantes à ce défi, le meilleur système s’est appuyé sur un modèle de langage large de type LLaMa affiné en utilisant la méthode d’adaptation LoRA.

2022

pdf bib
Graph Neural Networks for Adapting Off-the-shelf General Domain Language Models to Low-Resource Specialised Domains
Merieme Bouhandi | Emmanuel Morin | Thierry Hamon
Proceedings of the 2nd Workshop on Deep Learning on Graphs for Natural Language Processing (DLG4NLP 2022)

Language models encode linguistic proprieties and are used as input for more specific models. Using their word representations as-is for specialised and low-resource domains might be less efficient. Methods of adapting them exist, but these models often overlook global information about how words, terms, and concepts relate to each other in a corpus due to their strong reliance on attention. We consider that global information can influence the results of the downstream tasks, and combination with contextual information is performed using graph convolution networks or GCN built on vocabulary graphs. By outperforming baselines, we show that this architecture is profitable for domain-specific tasks.

pdf bib
About Evaluating Bilingual Lexicon Induction
Martin Laville | Emmanuel Morin | Phillippe Langlais
Proceedings of the BUCC Workshop within LREC 2022

With numerous new methods proposed recently, the evaluation of Bilingual Lexicon Induction have been quite hazardous and inconsistent across works. Some studies proposed some guidance to sanitize this; yet, they are not necessarily followed by practitioners. In this study, we try to gather these different recommendations and add our owns, with the aim to propose an unified evaluation protocol. We further show that the easiness of a benchmark while being correlated to the proximity of the language pairs being considered, is even more conditioned on the graphical similarities within the test word pairs.

pdf bib
Building Comparable Corpora for Assessing Multi-Word Term Alignment
Omar Adjali | Emmanuel Morin | Pierre Zweigenbaum
Proceedings of the Thirteenth Language Resources and Evaluation Conference

Recent work has demonstrated the importance of dealing with Multi-Word Terms (MWTs) in several Natural Language Processing applications. In particular, MWTs pose serious challenges for alignment and machine translation systems because of their syntactic and semantic properties. Thus, developing algorithms that handle MWTs is becoming essential for many NLP tasks. However, the availability of bilingual and more generally multi-lingual resources is limited, especially for low-resourced languages and in specialized domains. In this paper, we propose an approach for building comparable corpora and bilingual term dictionaries that help evaluate bilingual term alignment in comparable corpora. To that aim, we exploit parallel corpora to perform automatic bilingual MWT extraction and comparable corpus construction. Parallel information helps to align bilingual MWTs and makes it easier to build comparable specialized sub-corpora. Experimental validation on an existing dataset and on manually annotated data shows the interest of the proposed methodology.

pdf bib
Combination of Contextualized and Non-Contextualized Layers for Lexical Substitution in French
Kévin Espasa | Emmanuel Morin | Olivier Hamon
Proceedings of the Thirteenth Language Resources and Evaluation Conference

Lexical substitution task requires to substitute a target word by candidates in a given context. Candidates must keep meaning and grammatically of the sentence. The task, introduced in the SemEval 2007, has two objectives. The first objective is to find a list of substitutes for a target word. This list of substitutes can be obtained with lexical resources like WordNet or generated with a pre-trained language model. The second objective is to rank these substitutes using the context of the sentence. Most of the methods use vector space models or more recently embeddings to rank substitutes. Embedding methods use high contextualized representation. This representation can be over contextualized and in this way overlook good substitute candidates which are more similar on non-contextualized layers. SemDis 2014 introduced the lexical substitution task in French. We propose an application of the state-of-the-art method based on BERT in French and a novel method using contextualized and non-contextualized layers to increase the suggestion of words having a lower probability in a given context but that are more semantically similar. Experiments show our method increases the BERT based system on the OOT measure but decreases on the BEST measure in the SemDis 2014 benchmark.

pdf bib
Traitement Automatique des Langues, Volume 63, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 63, Numéro 1 : Varia [Varia]

pdf bib
Traitement Automatique des Langues, Volume 63, Numéro 3 : Etats de l'art en TAL [Review articles in NLP]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 63, Numéro 3 : Etats de l'art en TAL [Review articles in NLP]

pdf bib
Préface [Editorial]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 63, Numéro 3 : Etats de l'art en TAL [Review articles in NLP]

pdf bib
Adaptation au domaine de modèles de langue à l’aide de réseaux à base de graphes (Graph Neural Networks for Adapting General Domain Language Modèles Specialised Corpora)
Merieme Bouhandi | Emmanuel Morin | Thierry Hamon
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Les modèles de langue prodonds encodent les propriétés linguistiques et sont utilisés comme entrée pour des modèles plus spécifiques. Utiliser leurs représentations de mots telles quelles pour des domaines peu dotés se révèle être moins efficace. De plus, ces modèles négligent souvent les informations globales sur le vocabulaire au profit d’une plus forte dépendance à l’attention. Nous considérons que ces informations influent sur les résultats des tâches en aval. Leur combinaison avec les représentations contextuelles est effectuée à l’aide de réseaux de neurones à base de graphes. Nous montrons que l’utilité de cette combinaison qui surpassent les performances de baselines.

pdf bib
FrenchMedMCQA: A French Multiple-Choice Question Answering Dataset for Medical domain
Yanis Labrak | Adrien Bazoge | Richard Dufour | Beatrice Daille | Pierre-Antoine Gourraud | Emmanuel Morin | Mickael Rouvier
Proceedings of the 13th International Workshop on Health Text Mining and Information Analysis (LOUHI)

This paper introduces FrenchMedMCQA, the first publicly available Multiple-Choice Question Answering (MCQA) dataset in French for medical domain. It is composed of 3,105 questions taken from real exams of the French medical specialization diploma in pharmacy, mixing single and multiple answers. Each instance of the dataset contains an identifier, a question, five possible answers and their manual correction(s). We also propose first baseline models to automatically process this MCQA task in order to report on the current performances and to highlight the difficulty of the task. A detailed analysis of the results showed that it is necessary to have representations adapted to the medical domain or to the MCQA task: in our case, English specialized models yielded better results than generic French ones, even though FrenchMedMCQA is in French. Corpus, models and tools are available online.

2021

pdf bib
Traitement Automatique des Langues, Volume 62, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 62, Numéro 1 : Varia [Varia]

2020

pdf bib
Data Selection for Bilingual Lexicon Induction from Specialized Comparable Corpora
Martin Laville | Amir Hazem | Emmanuel Morin | Phillippe Langlais
Proceedings of the 28th International Conference on Computational Linguistics

Narrow specialized comparable corpora are often small in size. This particularity makes it difficult to build efficient models to acquire translation equivalents, especially for less frequent and rare words. One way to overcome this issue is to enrich the specialized corpora with out-of-domain resources. Although some recent studies have shown improvements using data augmentation, the enrichment method was roughly conducted by adding out-of-domain data with no particular attention given to how to enrich words and how to do it optimally. In this paper, we contrast several data selection techniques to improve bilingual lexicon induction from specialized comparable corpora. We first apply two well-established data selection techniques often used in machine translation that is: Tf-Idf and cross entropy. Then, we propose to exploit BERT for data selection. Overall, all the proposed techniques improve the quality of the extracted bilingual lexicons by a large margin. The best performing model is the cross entropy, obtaining a gain of about 4 points in MAP while decreasing computation time by a factor of 10.

pdf bib
TALN/LS2N Participation at the BUCC Shared Task: Bilingual Dictionary Induction from Comparable Corpora
Martin Laville | Amir Hazem | Emmanuel Morin
Proceedings of the 13th Workshop on Building and Using Comparable Corpora

This paper describes the TALN/LS2N system participation at the Building and Using Comparable Corpora (BUCC) shared task. We first introduce three strategies: (i) a word embedding approach based on fastText embeddings; (ii) a concatenation approach using both character Skip-Gram and character CBOW models, and finally (iii) a cognates matching approach based on an exact match string similarity. Then, we present the applied strategy for the shared task which consists in the combination of the embeddings concatenation and the cognates matching approaches. The covered languages are French, English, German, Russian and Spanish. Overall, our system mixing embeddings concatenation and perfect cognates matching obtained the best results while compared to individual strategies, except for English-Russian and Russian-English language pairs for which the concatenation approach was preferred.

pdf bib
Where are we in Named Entity Recognition from Speech?
Antoine Caubrière | Sophie Rosset | Yannick Estève | Antoine Laurent | Emmanuel Morin
Proceedings of the Twelfth Language Resources and Evaluation Conference

Named entity recognition (NER) from speech is usually made through a pipeline process that consists in (i) processing audio using an automatic speech recognition system (ASR) and (ii) applying a NER to the ASR outputs. The latest data available for named entity extraction from speech in French were produced during the ETAPE evaluation campaign in 2012. Since the publication of ETAPE’s campaign results, major improvements were done on NER and ASR systems, especially with the development of neural approaches for both of these components. In addition, recent studies have shown the capability of End-to-End (E2E) approach for NER / SLU tasks. In this paper, we propose a study of the improvements made in speech recognition and named entity recognition for pipeline approaches. For this type of systems, we propose an original 3-pass approach. We also explore the capability of an E2E system to do structured NER. Finally, we compare the performances of ETAPE’s systems (state-of-the-art systems in 2012) with the performances obtained using current technologies. The results show the interest of the E2E approach, which however remains below an updated pipeline approach.

pdf bib
Traitement Automatique des Langues, Volume 61, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 61, Numéro 1 : Varia [Varia]

pdf bib
Où en sommes-nous dans la reconnaissance des entités nommées structurées à partir de la parole ? (Where are we in Named Entity Recognition from speech ?)
Antoine Caubrière | Sophie Rosset | Yannick Estève | Antoine Laurent | Emmanuel Morin
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

La reconnaissance des entités nommées (REN) à partir de la parole est traditionnellement effectuée par l’intermédiaire d’une chaîne de composants, exploitant un système de reconnaissance de la parole (RAP), puis un système de REN appliqué sur les transcriptions automatiques. Les dernières données disponibles pour la REN structurées à partir de la parole en français proviennent de la campagne d’évaluation ETAPE en 2012. Depuis la publication des résultats, des améliorations majeures ont été réalisées pour les systèmes de REN et de RAP. Notamment avec le développement des systèmes neuronaux. De plus, certains travaux montrent l’intérêt des approches de bout en bout pour la tâche de REN dans la parole. Nous proposons une étude des améliorations en RAP et REN dans le cadre d’une chaîne de composants, ainsi qu’une nouvelle approche en trois étapes. Nous explorons aussi les capacités d’une approche bout en bout pour la REN structurées. Enfin, nous comparons ces deux types d’approches à l’état de l’art de la campagne ETAPE. Nos résultats montrent l’intérêt de l’approche bout en bout, qui reste toutefois en deçà d’une chaîne de composants entièrement mise à jour.

2019

pdf bib
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs

pdf bib
Curriculum d’apprentissage : reconnaissance d’entités nommées pour l’extraction de concepts sémantiques (Curriculum learning : named entity recognition for semantic concept extraction)
Antoine Caubrière | Natalia Tomashenko | Yannick Estève | Antoine Laurent | Emmanuel Morin
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume I : Articles longs

Dans cet article, nous présentons une approche de bout en bout d’extraction de concepts sémantiques de la parole. En particulier, nous mettons en avant l’apport d’une chaîne d’apprentissage successif pilotée par une stratégie de curriculum d’apprentissage. Dans la chaîne d’apprentissage mise en place, nous exploitons des données françaises annotées en entités nommées que nous supposons être des concepts plus génériques que les concepts sémantiques liés à une application informatique spécifique. Dans cette étude, il s’agit d’extraire des concepts sémantiques dans le cadre de la tâche MEDIA. Pour renforcer le système proposé, nous exploitons aussi des stratégies d’augmentation de données, un modèle de langage 5-gramme, ainsi qu’un mode étoile aidant le système à se concentrer sur les concepts et leurs valeurs lors de l’apprentissage. Les résultats montrent un intérêt à l’utilisation des données d’entités nommées, permettant un gain relatif allant jusqu’à 6,5 %.

pdf bib
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts

pdf bib
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume III : RECITAL
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume III : RECITAL

pdf bib
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume IV : Démonstrations
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume IV : Démonstrations

pdf bib
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)

pdf bib
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Terminologie et Intelligence Artificielle (atelier TALN-RECITAL \& IC)
Emmanuel Morin | Sophie Rosset | Pierre Zweigenbaum
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Terminologie et Intelligence Artificielle (atelier TALN-RECITAL \& IC)

pdf bib
Traitement Automatique des Langues, Volume 60, Numéro 1 : Varia [Varia]
Cécile Fabre | Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 60, Numéro 1 : Varia [Varia]

2018

pdf bib
Leveraging Meta-Embeddings for Bilingual Lexicon Extraction from Specialized Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of the 27th International Conference on Computational Linguistics

Recent evaluations on bilingual lexicon extraction from specialized comparable corpora have shown contrasted performance while using word embedding models. This can be partially explained by the lack of large specialized comparable corpora to build efficient representations. Within this context, we try to answer the following questions: First, (i) among the state-of-the-art embedding models, whether trained on specialized corpora or pre-trained on large general data sets, which one is the most appropriate model for bilingual terminology extraction? Second (ii) is it worth it to combine multiple embeddings trained on different data sets? For that purpose, we propose the first systematic evaluation of different word embedding models for bilingual terminology extraction from specialized comparable corpora. We emphasize how the character-based embedding model outperforms other models on the quality of the extracted bilingual lexicons. Further more, we propose a new efficient way to combine different embedding models learned from specialized and general-domain data sets. Our approach leads to higher performance than the best individual embedding model.

pdf bib
Transfer Learning for a Letter-Ngrams to Word Decoder in the Context of Historical Handwriting Recognition with Scarce Resources
Adeline Granet | Emmanuel Morin | Harold Mouchère | Solen Quiniou | Christian Viard-Gaudin
Proceedings of the 27th International Conference on Computational Linguistics

Lack of data can be an issue when beginning a new study on historical handwritten documents. In order to deal with this, we present the character-based decoder part of a multilingual approach based on transductive transfer learning for a historical handwriting recognition task on Italian Comedy Registers. The decoder must build a sequence of characters that corresponds to a word from a vector of letter-ngrams. As learning data, we created a new dataset from untapped resources that covers the same domain and period of our Italian Comedy data, as well as resources from common domains, periods, or languages. We obtain a 97.42% Character Recognition Rate and a 86.57% Word Recognition Rate on our Italian Comedy data, despite a lexical coverage of 67% between the Italian Comedy data and the training data. These results show that an efficient system can be obtained by a carefully selecting the datasets used for the transfer learning.

pdf bib
Towards a unified framework for bilingual terminology extraction of single-word and multi-word terms
Jingshu Liu | Emmanuel Morin | Peña Saldarriaga
Proceedings of the 27th International Conference on Computational Linguistics

Extracting a bilingual terminology for multi-word terms from comparable corpora has not been widely researched. In this work we propose a unified framework for aligning bilingual terms independently of the term lengths. We also introduce some enhancements to the context-based and the neural network based approaches. Our experiments show the effectiveness of our enhancements of previous works and the system can be adapted in specialized domains.

pdf bib
Alignement de termes de longueur variable en corpus comparables spécialisés (Alignment of variable length terms in specialized comparable corpora)
Jingshu Liu | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Nous proposons dans cet article une adaptation de l’approche compositionnelle étendue capable d’aligner des termes de longueurs variables à partir de corpus comparables, en modifiant la représentation des termes complexes. Nous proposons également de nouveaux modes de pondération pour l’approche standard qui améliorent les résultats des approches état de l’art pour les termes simples et complexes en domaine de spécialité.

pdf bib
Ordonnancement de réponses dans les systèmes de dialogue basé sur une similarité contexte/réponse (Response ranking in dialogue systems based on context-response similarity)
Basma El Amel Boussaha | Nicolas Hernandez | Christine Jacquin | Emmanuel Morin
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Construire des systèmes de dialogue qui conversent avec les humains afin de les aider dans leurs tâches quotidiennes est devenu une priorité. Certains de ces systèmes produisent des dialogues en cherchant le meilleur énoncé (réponse) parmi un ensemble d’énoncés candidats. Le choix de la réponse est conditionné par l’historique de la conversation appelé contexte. Ces systèmes ordonnent les énoncés candidats par leur adéquation au contexte, le meilleur est ensuite choisi. Les approches existantes à base de réseaux de neurones profonds sont performantes pour cette tâche. Dans cet article, nous améliorons une approche état de l’art à base d’un dual encodeur LSTM. En se basant sur la similarité sémantique entre le contexte et la réponse, notre approche apprend à mieux distinguer les bonnes réponses des mauvaises. Les résultats expérimentaux sur un large corpus de chats d’Ubuntu montrent une amélioration significative de 7, 6 et 2 points sur le Rappel@(1, 2 et 5) respectivement par rapport au meilleur système état de l’art.

pdf bib
Décodeur neuronal pour la transcription de documents manuscrits anciens (Neural decoder for the transcription of historical handwritten documents)
Adeline Granet | Emmanuel Morin | Harold Mouchère | Solen Quiniou | Christian Viard-Gaudin
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

L’absence de données annotées peut être une difficulté majeure lorsque l’on s’intéresse à l’analyse de documents manuscrits anciens. Pour contourner cette difficulté, nous proposons de diviser le problème en deux, afin de pouvoir s’appuyer sur des données plus facilement accessibles. Dans cet article nous présentons la partie décodeur d’un encodeur-décodeur multimodal utilisant l’apprentissage par transfert de connaissances pour la transcription des titres de pièces de la Comédie Italienne. Le décodeur transforme un vecteur de n-grammes au niveau caractères en une séquence de caractères correspondant à un mot. L’apprentissage par transfert de connaissances est réalisé principalement à partir d’une nouvelle ressource inexploitée contemporaine à la Comédie-Italienne et thématiquement proche ; ainsi que d’autres ressources couvrant d’autres domaines, des langages différents et même des périodes différentes. Nous obtenons 97,27% de caractères bien reconnus sur les données de la Comédie-Italienne, ainsi que 86,57% de mots correctement générés malgré une couverture de 67,58% uniquement entre la Comédie-Italienne et l’ensemble d’apprentissage. Les expériences montrent qu’un tel système peut être une approche efficace dans le cadre d’apprentissage par transfert.

pdf bib
Crowdsourcing-based Annotation of the Accounting Registers of the Italian Comedy
Adeline Granet | Benjamin Hervy | Geoffrey Roman-Jimenez | Marouane Hachicha | Emmanuel Morin | Harold Mouchère | Solen Quiniou | Guillaume Raschia | Françoise Rubellin | Christian Viard-Gaudin
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

bib
Traitement Automatique des Langues, Volume 59, Numéro 1 : Varia [Varia]
Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 59, Numéro 1 : Varia [Varia]

2017

pdf bib
Traitement Automatique des Langues, Volume 58, Numéro 1 : Varia [Varia]
Jean-Luc Minel | Emmanuel Morin | Pascale Sébillot | Isabelle Tellier
Traitement Automatique des Langues, Volume 58, Numéro 1 : Varia [Varia]

pdf bib
Préambule [Preamble]
Emmanuel Morin | Sophie Rosset | Pascale Sébillot
Traitement Automatique des Langues, Volume 58, Numéro 3 : Traitement automatique de l'arabe et des langues apparentées [NLP for Arabic and Related Languages]

pdf bib
Bilingual Word Embeddings for Bilingual Terminology Extraction from Specialized Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of the Eighth International Joint Conference on Natural Language Processing (Volume 1: Long Papers)

Bilingual lexicon extraction from comparable corpora is constrained by the small amount of available data when dealing with specialized domains. This aspect penalizes the performance of distributional-based approaches, which is closely related to the reliability of word’s cooccurrence counts extracted from comparable corpora. A solution to avoid this limitation is to associate external resources with the comparable corpus. Since bilingual word embeddings have recently shown efficient models for learning bilingual distributed representation of words, we explore different word embedding models and show how a general-domain comparable corpus can enrich a specialized comparable corpus via neural networks

pdf bib
Language-based Construction of Explorable News Graphs for Journalists
Rémi Bois | Guillaume Gravier | Eric Jamet | Emmanuel Morin | Pascale Sébillot | Maxime Robert
Proceedings of the 2017 EMNLP Workshop: Natural Language Processing meets Journalism

Faced with ever-growing news archives, media professionals are in need of advanced tools to explore the information surrounding specific events. This problem is most commonly answered by browsing news datasets, going from article to article and viewing unaltered original content. In this article, we introduce an efficient way to generate links between news items, allowing such browsing through an easily explorable graph, and enrich this graph by automatically typing links in order to inform the user on the nature of the relation between two news pieces. User evaluations are conducted on real world data with journalists in order to assess for the interest of both the graph representation and link typing in a press reviewing task, showing the system to be of significant help for their work.

2016

pdf bib
Comparaison d’approches de classification automatique des actes de dialogue dans un corpus de conversations écrites en ligne sur différentes modalités (A comparison of automatic dialog act recognition approaches in a multimodal corpus of online written conversations)
Soufian Salim | Nicolas Hernandez | Emmanuel Morin
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

L’analyse des conversations écrites porteuses de demandes d’assistance est un enjeu important pour le développement de nouvelles technologies liées au support client. Dans cet article, nous nous intéressons à l’analyse d’un même type d’échange sur un canal différent : les conversations se déroulant sur les plate-formes d’entraide entre utilisateurs. Nous comparons des approches de classification supervisées sur trois modalités des CMR 1 différentes à même thématique : des courriels, forums et chats issus de la communauté Ubuntu. Le système emploie une taxonomie fine basée sur le schéma DIT++. D’autres expériences sont détaillées, et nous rapportons les résultats obtenus avec différentes approches et différents traits sur les différentes parties de notre corpus multimodal.

pdf bib
Extraction de lexiques bilingues à partir de corpus comparables spécialisés à travers une langue pivot (Bilingual lexicon extraction from specialized comparable corpora using a pivot language)
Alexis Linard | Emmanuel Morin | Béatrice Daille
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

L’extraction de lexiques bilingues à partir de corpus comparables se réalise traditionnellement en s’appuyant sur deux langues. Des travaux précédents en extraction de lexiques bilingues à partir de corpus parallèles ont démontré que l’utilisation de plus de deux langues peut être utile pour améliorer la qualité des alignements extraits. Nos travaux montrent qu’il est possible d’utiliser la même stratégie pour des corpus comparables. Nous avons défini deux méthodes originales impliquant des langues pivots et nous les avons évaluées sur quatre langues et deux langues pivots en particulier. Nos expérimentations ont montré que lorsque l’alignement entre la langue source et la langue pivot est de bonne qualité, l’extraction du lexique en langue cible s’en trouve améliorée.

pdf bib
Extraction d’opinions ambigües dans des corpus d’avis clients (Ambiguous opinion extraction in user feedbacks)
Joseph Lark | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Nous détectons dans des corpus d’avis clients en français des expressions d’opinion ne contenant pas de marqueur d’opinion explicitement positif ou négatif. Nous procédons pour cela en deux étapes en nous appuyant sur des méthodes existantes : nous identifions ces expressions à l’aide de fenêtres de mots puis nous les classifions en polarité. Le processus global présente des résultats satisfaisants pour notre cadre applicatif demandant une haute précision.

pdf bib
Improving Bilingual Terminology Extraction from Comparable Corpora via Multiple Word-Space Models
Amir Hazem | Emmanuel Morin
Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16)

There is a rich flora of word space models that have proven their efficiency in many different applications including information retrieval (Dumais, 1988), word sense disambiguation (Schutze, 1992), various semantic knowledge tests (Lund et al., 1995; Karlgren, 2001), and text categorization (Sahlgren, 2005). Based on the assumption that each model captures some aspects of word meanings and provides its own empirical evidence, we present in this paper a systematic exploration of the principal corpus-based word space models for bilingual terminology extraction from comparable corpora. We find that, once we have identified the best procedures, a very simple combination approach leads to significant improvements compared to individual models.

pdf bib
Efficient Data Selection for Bilingual Terminology Extraction from Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers

Comparable corpora are the main alternative to the use of parallel corpora to extract bilingual lexicons. Although it is easier to build comparable corpora, specialized comparable corpora are often of modest size in comparison with corpora issued from the general domain. Consequently, the observations of word co-occurrences which are the basis of context-based methods are unreliable. We propose in this article to improve word co-occurrences of specialized comparable corpora and thus context representation by using general-domain data. This idea, which has been already used in machine translation task for more than a decade, is not straightforward for the task of bilingual lexicon extraction from specific-domain comparable corpora. We go against the mainstream of this task where many studies support the idea that adding out-of-domain documents decreases the quality of lexicons. Our empirical evaluation shows the advantages of this approach which induces a significant gain in the accuracy of extracted lexicons.

2015

pdf bib
CANÉPHORE : un corpus français pour la fouille d’opinion ciblée
Joseph Lark | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

La fouille d’opinion ciblée (aspect-based sentiment analysis) fait l’objet ces dernières années d’un intérêt particulier, visible dans les sujets des récentes campagnes d’évaluation comme SemEval 2014 et 2015 ou bien DEFT 2015. Cependant les corpus annotés et publiquement disponibles permettant l’évaluation de cette tâche sont rares. Dans ce travail nous présentons en premier lieu un corpus français librement accessible de 10 000 tweets manuellement annotés. Nous accompagnons ce corpus de résultats de référence pour l’extraction de marqueurs d’opinion non supervisée. Nous présentons ensuite une méthode améliorant les résultats de cette extraction, en suivant une approche semi-supervisée.

pdf bib
Extraction de Contextes Riches en Connaissances en corpus spécialisés
Firas Hmida | Emmanuel Morin | Béatrice Daille
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les banques terminologiques et les dictionnaires sont des ressources précieuses qui facilitent l’accès aux connaissances des domaines spécialisés. Ces ressources sont souvent assez pauvres et ne proposent pas toujours pour un terme à illustrer des exemples permettant d’appréhender le sens et l’usage de ce terme. Dans ce contexte, nous proposons de mettre en œuvre la notion de Contextes Riches en Connaissances (CRC) pour extraire directement de corpus spécialisés des exemples de contextes illustrant son usage. Nous définissons un cadre unifié pour exploiter tout à la fois des patrons de connaissances et des collocations avec une qualité acceptable pour une révision humaine.

pdf bib
Vers une typologie de liens entre contenus journalistiques
Remi Bois | Guillaume Gravier | Emmanuel Morin | Pascale Sébillot
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Nous présentons une typologie de liens pour un corpus multimédia ancré dans le domaine journalistique. Bien que plusieurs typologies aient été créées et utilisées par la communauté, aucune ne permet de répondre aux enjeux de taille et de variété soulevés par l’utilisation d’un corpus large comprenant des textes, des vidéos, ou des émissions radiophoniques. Nous proposons donc une nouvelle typologie, première étape visant à la création et la catégorisation automatique de liens entre des fragments de documents afin de proposer de nouveaux modes de navigation au sein d’un grand corpus. Plusieurs exemples d’instanciation de la typologie sont présentés afin d’illustrer son intérêt.

pdf bib
Attempting to Bypass Alignment from Comparable Corpora via Pivot Language
Alexis Linard | Béatrice Daille | Emmanuel Morin
Proceedings of the Eighth Workshop on Building and Using Comparable Corpora

pdf bib
LINA: Identifying Comparable Documents from Wikipedia
Emmanuel Morin | Amir Hazem | Florian Boudin | Elizaveta Loginova-Clouet
Proceedings of the Eighth Workshop on Building and Using Comparable Corpora

2014

pdf bib
Looking at Unbalanced Specialized Comparable Corpora for Bilingual Lexicon Extraction
Emmanuel Morin | Amir Hazem
Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)

pdf bib
Extraction de lexiques bilingues à partir de corpus comparables spécialisés : étude du contexte lexical [Bilingual lexicon extraction from specialized comparable corpora: a study of lexical context]
Amir Hazem | Emmanuel Morin
Traitement Automatique des Langues, Volume 55, Numéro 1 : Varia [Varia]

2013

pdf bib
Intégration de la reconnaissance des entités nommées au processus de reconnaissance de la parole [Integration of named entity recognition to automatic speech recognition]
Mahamed Hatmi | Christine Jacquin | Sylvain Meignier | Emmanuel Morin | Solen Quiniou
Traitement Automatique des Langues, Volume 54, Numéro 2 : Entité Nommées [Named Entities]

pdf bib
Keyphrase Extraction for N-best Reranking in Multi-Sentence Compression
Florian Boudin | Emmanuel Morin
Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies

pdf bib
A Comparison of Smoothing Techniques for Bilingual Lexicon Extraction from Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of the Sixth Workshop on Building and Using Comparable Corpora

pdf bib
Proceedings of TALN 2013 (Volume 1: Long Papers)
Emmanuel Morin | Yannick Estève
Proceedings of TALN 2013 (Volume 1: Long Papers)

pdf bib
Bilingual Lexicon Extraction from Comparable Corpora by Combining Contextual Representations (Extraction de lexiques bilingues à partir de corpus comparables par combinaison de représentations contextuelles) [in French]
Amir Hazem | Emmanuel Morin
Proceedings of TALN 2013 (Volume 1: Long Papers)

pdf bib
Identification, Alignment, and Tranlsation of Relational Adjectives from Comparable Corpora (Identification, alignement, et traductions des adjectifs relationnels en corpus comparables) [in French]
Rima Harastani | Beatrice Daille | Emmanuel Morin
Proceedings of TALN 2013 (Volume 1: Long Papers)

pdf bib
Proceedings of TALN 2013 (Volume 2: Short Papers)
Emmanuel Morin | Yannick Estève
Proceedings of TALN 2013 (Volume 2: Short Papers)

pdf bib
Proceedings of TALN 2013 (Volume 3: System Demonstrations)
Emmanuel Morin | Yannick Estève
Proceedings of TALN 2013 (Volume 3: System Demonstrations)

pdf bib
Proceedings of TALN 2013 (Volume 4: Invited Conferences)
Emmanuel Morin | Yannick Estève
Proceedings of TALN 2013 (Volume 4: Invited Conferences)

pdf bib
Ranking Translation Candidates Acquired from Comparable Corpora
Rima Harastani | Béatrice Daille | Emmanuel Morin
Proceedings of the Sixth International Joint Conference on Natural Language Processing

pdf bib
Word Co-occurrence Counts Prediction for Bilingual Terminology Extraction from Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of the Sixth International Joint Conference on Natural Language Processing

2012

pdf bib
Compositionnalité et contextes issus de corpus comparables pour la traduction terminologique (Compositionality and Context for Bilingual Lexicon Extraction from Comparable Corpora) [in French]
Emmanuel Morin | Béatrice Daille
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

pdf bib
Extraction of Domain-Specific Bilingual Lexicon from Comparable Corpora: Compositional Translation and Ranking
Estelle Delpech | Béatrice Daille | Emmanuel Morin | Claire Lemaire
Proceedings of COLING 2012

pdf bib
Revising the Compositional Method for Terminology Acquisition from Comparable Corpora
Emmanuel Morin | Béatrice Daille
Proceedings of COLING 2012

pdf bib
Adaptive Dictionary for Bilingual Lexicon Extraction from Comparable Corpora
Amir Hazem | Emmanuel Morin
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

One of the main resources used for the task of bilingual lexicon extraction from comparable corpora is : the bilingual dictionary, which is considered as a bridge between two languages. However, no particular attention has been given to this lexicon, except its coverage, and the fact that it can be issued from the general language, the specialised one, or a mix of both. In this paper, we want to highlight the idea that a better consideration of the bilingual dictionary by studying its entries and filtering the non-useful ones, leads to a better lexicon extraction and thus, reach a higher precision. The experiments are conducted on a medical domain corpora. The French-English specialised corpus 'breast cancer' of 1 million words. We show that the empirical results obtained with our filtering process improve the standard approach traditionally dedicated to this task and are promising for future work.

pdf bib
Identification of Fertile Translations in Comparable Corpora: A Morpho-Compositional Approach
Estelle Delpech | Béatrice Daille | Emmanuel Morin | Claire Lemaire
Proceedings of the 10th Conference of the Association for Machine Translation in the Americas: Research Papers

This paper defines a method for lexicon in the biomedical domain from comparable corpora. The method is based on compositional translation and exploits morpheme-level translation equivalences. It can generate translations for a large variety of morphologically constructed words and can also generate ’fertile’ translations. We show that fertile translations increase the overall quality of the extracted lexicon for English to French translation.

2011

pdf bib
Degré de comparabilité, extraction lexicale bilingue et recherche d’information interlingue (Degree of comparability, bilingual lexical extraction and cross-language information retrieval)
Bo Li | Eric Gaussier | Emmanuel Morin | Amir Hazem
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous étudions dans cet article le problème de la comparabilité des documents composant un corpus comparable afin d’améliorer la qualité des lexiques bilingues extraits et les performances des systèmes de recherche d’information interlingue. Nous proposons une nouvelle approche qui permet de garantir un certain degré de comparabilité et d’homogénéité du corpus tout en préservant une grande part du vocabulaire du corpus d’origine. Nos expériences montrent que les lexiques bilingues que nous obtenons sont d’une meilleure qualité que ceux obtenus avec les approches précédentes, et qu’ils peuvent être utilisés pour améliorer significativement les systèmes de recherche d’information interlingue.

pdf bib
Métarecherche pour l’extraction lexicale bilingue à partir de corpus comparables (Metasearch for bilingual lexical extraction from comparable corpora)
Amir Hazem | Emmanuel Morin | Sebastián Peña Saldarriaga
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous présentons dans cet article une nouvelle manière d’aborder le problème de l’acquisition automatique de paires de mots en relation de traduction à partir de corpus comparables. Nous décrivons tout d’abord les approches standard et par similarité interlangue traditionnellement dédiées à cette tâche. Nous réinterprétons ensuite la méthode par similarité interlangue et motivons un nouveau modèle pour reformuler cette approche inspirée par les métamoteurs de recherche d’information. Les résultats empiriques que nous obtenons montrent que les performances de notre modèle sont toujours supérieures à celles obtenues avec l’approche par similarité interlangue, mais aussi comme étant compétitives par rapport à l’approche standard.

pdf bib
TTC TermSuite : une chaîne de traitement pour la fouille terminologique multilingue (TTC TermSuite: a processing chain for multilingual terminology mining)
Béatrice Daille | Christine Jacquin | Laura Monceaux | Emmanuel Morin | Jérome Rocheteau
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

pdf bib
Bilingual Lexicon Extraction from Comparable Corpora Enhanced with Parallel Corpora
Emmanuel Morin | Emmanuel Prochasson
Proceedings of the 4th Workshop on Building and Using Comparable Corpora: Comparable Corpora and the Web

pdf bib
Bilingual Lexicon Extraction from Comparable Corpora as Metasearch
Amir Hazem | Emmanuel Morin | Sebastian Peña Saldarriaga
Proceedings of the 4th Workshop on Building and Using Comparable Corpora: Comparable Corpora and the Web

2010

pdf bib
Multilinguisme et traitement automatique des langues [Multilinguism and natural language processing]
Holger Schwenk | Emmanuel Morin
Traitement Automatique des Langues, Volume 51, Numéro 2 : Multilinguisme et traitement automatique des langues [Multilingualism and Natural Language Processing]

2009

pdf bib
Apport d’un corpus comparable déséquilibré à l’extraction de lexiques bilingues
Emmanuel Morin
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Les principaux travaux en extraction de lexiques bilingues à partir de corpus comparables reposent sur l’hypothèse implicite que ces corpus sont équilibrés. Cependant, les différentes méthodes computationnelles associées sont relativement insensibles à la taille de chaque partie du corpus. Dans ce contexte, nous étudions l’influence que peut avoir un corpus comparable déséquilibré sur la qualité des terminologies bilingues extraites à travers différentes expériences. Nos résultats montrent que sous certaines conditions l’utilisation d’un corpus comparable déséquilibré peut engendrer un gain significatif dans la qualité des lexiques extraits.

pdf bib
Influence des points d’ancrage pour l’extraction lexicale bilingue à partir de corpus comparables spécialisés
Emmanuel Prochasson | Emmanuel Morin
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

L’extraction de lexiques bilingues à partir de corpus comparables affiche de bonnes performances pour des corpus volumineux mais chute fortement pour des corpus d’une taille plus modeste. Pour pallier cette faiblesse, nous proposons une nouvelle contribution au processus d’alignement lexical à partir de corpus comparables spécialisés qui vise à renforcer la significativité des contextes lexicaux en s’appuyant sur le vocabulaire spécialisé du domaine étudié. Les expériences que nous avons réalisées en ce sens montrent qu’une meilleure prise en compte du vocabulaire spécialisé permet d’améliorer la qualité des lexiques extraits.

pdf bib
Un nouveau schéma de pondération pour la catégorisation de documents manuscrits
Sebastián Peña Saldarriaga | Emmanuel Morin | Christian Viard-Gaudin
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les schémas de pondération utilisés habituellement en catégorisation de textes, et plus généralement en recherche d’information (RI), ne sont pas adaptés à l’utilisation de données liées à des textes issus d’un processus de reconnaissance de l’écriture. En particulier, les candidats-mot à la reconnaissance ne pourraient être exploités sans introduire de fausses occurrences de termes dans le document. Dans cet article nous présentons un nouveau schéma de pondération permettant d’exploiter les listes de candidats-mot. Il permet d’estimer le pouvoir discriminant d’un terme en fonction de la probabilité a posteriori d’un candidat-mot dans une liste de candidats. Les résultats montrent que le taux de classification de documents fortement dégradés peut être amélioré en utilisant le schéma proposé.

pdf bib
Compilation of Specialized Comparable Corpora in French and Japanese
Lorraine Goeuriot | Emmanuel Morin | Béatrice Daille
Proceedings of the 2nd Workshop on Building and Using Comparable Corpora: from Parallel to Non-parallel Corpora (BUCC)

pdf bib
Points d’ancrage pour l’extraction lexicale bilingue à partir de petits corpus comparables spécialisés. Éléments de confiance pour la caractérisation des termes [Anchor points for bilingual extraction from small specialized comparable corpora]
Emmanuel Prochasson | Emmanuel Morin
Traitement Automatique des Langues, Volume 50, Numéro 1 : Varia [Varia]

pdf bib
Anchor Points for Bilingual Lexicon Extraction from Small Comparable Corpora
Emmanuel Prochasson | Emmanuel Morin | Kyo Kageura
Proceedings of Machine Translation Summit XII: Posters

2008

pdf bib
An Effective Compositional Model for Lexical Alignment
Béatrice Daille | Emmanuel Morin
Proceedings of the Third International Joint Conference on Natural Language Processing: Volume-I

2007

pdf bib
Bilingual Terminology Mining - Using Brain, not brawn comparable corpora
Emmanuel Morin | Béatrice Daille | Koichi Takeuchi | Kyo Kageura
Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics

2006

pdf bib
Comparabilité de corpus et fouille terminologique multilingue [Corpus comparability and multilingual terminology Mining]
Emmanuel Morin | Béatrice Daille
Traitement Automatique des Langues, Volume 47, Numéro 1 : Varia [Varia]

2005

pdf bib
French-English Terminology Extraction from Comparable Corpora
Béatrice Daille | Emmanuel Morin
Second International Joint Conference on Natural Language Processing: Full Papers

2004

pdf bib
Extraction de terminologies bilingues à partir de corpus comparables
Emmanuel Morin | Samuel Dufour-Kowalski | Béatrice Daille
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article présente une méthode pour extraire, à partir de corpus comparables d’un domaine de spécialité, un lexique bilingue comportant des termes simples et complexes. Cette méthode extrait d’abord les termes complexes dans chaque langue, puis les aligne à l’aide de méthodes statistiques exploitant le contexte des termes. Après avoir rappelé les difficultés que pose l’alignement des termes complexes et précisé notre approche, nous présentons le processus d’extraction de terminologies bilingues adopté et les ressources utilisées pour nos expérimentations. Enfin, nous évaluons notre approche et démontrons son intérêt en particulier pour l’alignement de termes complexes non compositionnels.

pdf bib
French-English Multi-word Term Alignment Based on Lexical Context Analysis
Béatrice Daille | Samuel Dufour-Kowalski | Emmanuel Morin
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)

2003

pdf bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Béatrice Daille | Emmanuel Morin
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

pdf bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Béatrice Daille | Emmanuel Morin
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

pdf bib
Apport d’un modèle de langage statistique pour la reconnaissance de l’écriture manuscrite en ligne
Freddy Perraud | Emmanuel Morin | Christian Viard-Gaudin | Pierre-Michel Lallican
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Dans ce travail, nous étudions l’apport d’un modèle de langage pour améliorer les performances des systèmes de reconnaissance de l’écriture manuscrite en-ligne. Pour cela, nous avons exploré des modèles basés sur des approches statistiques construits par apprentissage sur des corpus écrits. Deux types de modèles ont été étudiés : les modèles n-grammes et ceux de type n-classes. En vue de l’intégration dans un système de faible capacité (engin nomade), un modèle n-classe combinant critères syntaxiques et contextuels a été défini, il a permis d’obtenir des résultats surpassant ceux donnés avec un modèle beaucoup plus lourd de type n-gramme. Les résultats présentés ici montrent qu’il est possible de prendre en compte les spécificités d’un langage en vue de reconnaître l’écriture manuscrite avec des modèles de taille tout à fait raisonnable.

pdf bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels
Béatrice Daille | Emmanuel Morin
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels

pdf bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Emmanuel Morin
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

pdf bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
Emmanuel Morin
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)

2002

pdf bib
Incremental Recognition and Referential Categorization of French Proper Names
Nordine Fourour | Emmanuel Morin | Béatrice Daille
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)

1999

pdf bib
Projecting Corpus-Based Semantic Links on a Thesaurus
Emmanuel Morin
Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics

Search