Thi Ngoc Diep Do

Also published as: Thi-Ngoc-Diep Do


2010

pdf bib
A fully unsupervised approach for mining parallel data from comparable corpora
Thi Ngoc Diep Do | Laurent Besacier | Eric Castelli
Proceedings of the 14th Annual Conference of the European Association for Machine Translation

pdf bib
LIG statistical machine translation systems for IWSLT 2010
Laurent Besacier | Haitem Afli | Thi Ngoc Diep Do | Hervé Blanchon | Marion Potet
Proceedings of the 7th International Workshop on Spoken Language Translation: Evaluation Campaign

pdf bib
Improved Vietnamese-French parallel corpus mining using English language
Thi Ngoc Diep Do | Laurent Besacier | Eric Castelli
Proceedings of the 7th International Workshop on Spoken Language Translation: Papers

2009

pdf bib
Mining a Comparable Text Corpus for a Vietnamese-French Statistical Machine Translation System
Thi-Ngoc-Diep Do | Viet-Bac Le | Brigitte Bigi | Laurent Besacier | Eric Castelli
Proceedings of the Fourth Workshop on Statistical Machine Translation

pdf bib
Exploitation d’un corpus bilingue pour la création d’un système de traduction probabiliste Vietnamien - Français
Thi-Ngoc-Diep Do | Viet-Bac Le | Brigitte Bigi | Laurent Besacier | Eric Castelli
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article présente nos premiers travaux en vue de la construction d’un système de traduction probabiliste pour le couple de langue vietnamien-français. La langue vietnamienne étant considérée comme une langue peu dotée, une des difficultés réside dans la constitution des corpus parallèles, indispensable à l’apprentissage des modèles. Nous nous concentrons sur la constitution d’un grand corpus parallèle vietnamien-français. La méthode d’identification automatique des paires de documents parallèles fondée sur la date de publication, les mots spéciaux et les scores d’alignements des phrases est appliquée. Cet article présente également la construction d’un premier système de traduction automatique probabiliste vietnamienfrançais et français-vietnamien à partir de ce corpus et discute l’opportunité d’utiliser des unités lexicales ou sous-lexicales pour le vietnamien (syllabes, mots, ou leurs combinaisons). Les performances du système sont encourageantes et se comparent avantageusement à celles du système de Google.