Julien Bourdaillet


2012

pdf bib
Identifying Infrequent Translations by Aligning Non Parallel Sentences
Julien Bourdaillet | Philippe Langlais
Proceedings of the 10th Conference of the Association for Machine Translation in the Americas: Research Papers

Aligning a sequence of words to one of its infrequent translations is a difficult task. We propose a simple and original solution to this problem that yields to significant gains over a state-of-the-art transpotting task. Our approach consists in aligning non parallel sentences from the training data in order to reinforce online the alignment models. We show that using only a few pairs of non parallel sentences allows to improve significantly the alignment of infrequent translations.

2010

pdf bib
The RALI Machine Translation System for WMT 2010
Stéphane Huet | Julien Bourdaillet | Alexandre Patry | Philippe Langlais
Proceedings of the Joint Fifth Workshop on Statistical Machine Translation and MetricsMATR

pdf bib
Alignement de traductions rares à l’aide de paires de phrases non alignées
Julien Bourdaillet | Stéphane Huet | Philippe Langlais
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Bien souvent, le sens d’un mot ou d’une expression peut être rendu dans une autre langue par plusieurs traductions. Parmi celles-ci, certaines se révèlent très fréquentes alors que d’autres le sont beaucoup moins, conformément à une loi zipfienne. La googlisation de notre monde n’échappe pas aux mémoires de traduction, qui mettent souvent à mal ou simplement ignorent ces traductions rares qui sont souvent de bonne qualité. Dans cet article, nous nous intéressons à ces traductions rares sous l’angle du repérage de traductions. Nous argumentons qu’elles sont plus difficiles à identifier que les traductions plus fréquentes. Nous décrivons une approche originale qui permet de mieux les identifier en tirant profit de l’alignement au niveau des mots de paires de phrases qui ne sont pas alignées. Nous montrons que cette approche permet d’améliorer l’identification de ces traductions rares.

pdf bib
TransSearch : un moteur de recherche de traductions
Julien Bourdaillet | Fabrizio Gotti | Stéphane Huet | Philippe Langlais | Guy Lapalme
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

Malgré les nombreuses études visant à améliorer la traduction automatique, la traduction assistée par ordinateur reste la solution préférée des traducteurs lorsqu’une sortie de qualité est recherchée. Cette démonstration vise à présenter le moteur de recherche de traductions TransSearch. Cetteapplication commerciale, accessible sur leWeb, repose d’une part sur l’exploitation d’un bitexte aligné au niveau des phrases, et d’autre part sur des modèles statistiques d’alignement de mots.

2009

pdf bib
Harnessing the Redundant Results of Translation Spotting
Stéphane Huet | Julien Bourdaillet | Philippe Langlais | Guy Lapalme
Proceedings of Machine Translation Summit XII: Posters

pdf bib
TS3: an Improved Version of the Bilingual Concordancer TransSearch
Stéphane Huet | Julien Bourdaillet | Philippe Langlais
Proceedings of the 13th Annual conference of the European Association for Machine Translation

pdf bib
Intégration de l’alignement de mots dans le concordancier bilingue TransSearch
Stéphane Huet | Julien Bourdaillet | Philippe Langlais
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Malgré les nombreuses études visant à améliorer la traduction automatique, la traduction assistée par ordinateur reste la solution préférée des traducteurs lorsqu’une sortie de qualité est recherchée. Dans cet article, nous présentons nos travaux menés dans le but d’améliorer le concordancier bilingue TransSearch. Ce service, accessible sur le Web, repose principalement sur un alignement au niveau des phrases. Dans cette étude, nous discutons et évaluons l’intégration d’un alignement statistique au niveau des mots. Nous présentons deux nouvelles problématiques essentielles au succès de notre nouveau prototype : la détection des traductions erronées et le regroupement des variantes de traduction similaires.

2008

pdf bib
Representation of Atypical Entities in Ontologies
Christophe Jouis | Julien Bourdaillet
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

This paper is a contribution to formal ontology study. Some entities belong more or less to a class. In particular, some individual entities are attached to classes whereas they do not check all the properties of the class. To specify whether an individual entity belonging to a class is typical or not, we borrow the topological concepts of interior, border, closure, and exterior. We define a system of relations by adapting these topological operators. A scale of typicality, based on topology, is introduced. It enables to define levels of typicality where individual entities are more or less typical elements of a concept.

2007

pdf bib
Alignements monolingues avec déplacements
Julien Bourdaillet | Jean-Gabriel Ganascia
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Ce travail présente une application d’alignement monolingue qui répond à une problématique posée par la critique génétique textuelle, une école d’études littéraires qui s’intéresse à la genèse textuelle en comparant les différentes versions d’une oeuvre. Ceci nécessite l’identification des déplacements, cependant, le problème devient ainsi NP-complet. Notre algorithme heuristique est basé sur la reconnaissance des homologies entre séquences de caractères. Nous présentons une validation expérimentale et montrons que notre logiciel obtient de bons résultats ; il permet notamment l’alignement de livres entiers.

2005

pdf bib
Etiquetage morpho-syntaxique du français à base d’apprentissage supervisé
Julien Bourdaillet | Jean-Gabriel Ganascia
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Nous présentons un étiqueteur morpho-syntaxique du français. Celui-ci utilise l’apprentissage supervisé à travers un modèle de Markov caché. Le modèle de langage est appris à partir d’un corpus étiqueté. Nous décrivons son fonctionnement et la méthode d’apprentissage. L’étiqueteur atteint un score de précision de 89 % avec un jeu d’étiquettes très riche. Nous présentons ensuite des résultats détaillés pour chaque classe grammaticale et étudions en particulier la reconnaissance des homographes.