Thi-Ngoc-Diep Do

Also published as: Thi Ngoc Diep Do

2010

LIG statistical machine translation systems for IWSLT 2010
Laurent Besacier | Haitem Afli | Thi Ngoc Diep Do | Hervé Blanchon | Marion Potet
Proceedings of the 7th International Workshop on Spoken Language Translation: Evaluation Campaign

pdf bib

Improved Vietnamese-French parallel corpus mining using English language
Thi Ngoc Diep Do | Laurent Besacier | Eric Castelli
Proceedings of the 7th International Workshop on Spoken Language Translation: Papers

pdf bib

A fully unsupervised approach for mining parallel data from comparable corpora
Thi Ngoc Diep Do | Laurent Besacier | Eric Castelli
Proceedings of the 14th Annual Conference of the European Association for Machine Translation

2009

pdf bib

Mining a Comparable Text Corpus for a Vietnamese-French Statistical Machine Translation System
Thi-Ngoc-Diep Do | Viet-Bac Le | Brigitte Bigi | Laurent Besacier | Eric Castelli
Proceedings of the Fourth Workshop on Statistical Machine Translation

pdf bib abs

Exploitation d’un corpus bilingue pour la création d’un système de traduction probabiliste Vietnamien - Français
Thi-Ngoc-Diep Do | Viet-Bac Le | Brigitte Bigi | Laurent Besacier | Eric Castelli
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article présente nos premiers travaux en vue de la construction d’un système de traduction probabiliste pour le couple de langue vietnamien-français. La langue vietnamienne étant considérée comme une langue peu dotée, une des difficultés réside dans la constitution des corpus parallèles, indispensable à l’apprentissage des modèles. Nous nous concentrons sur la constitution d’un grand corpus parallèle vietnamien-français. La méthode d’identification automatique des paires de documents parallèles fondée sur la date de publication, les mots spéciaux et les scores d’alignements des phrases est appliquée. Cet article présente également la construction d’un premier système de traduction automatique probabiliste vietnamienfrançais et français-vietnamien à partir de ce corpus et discute l’opportunité d’utiliser des unités lexicales ou sous-lexicales pour le vietnamien (syllabes, mots, ou leurs combinaisons). Les performances du système sont encourageantes et se comparent avantageusement à celles du système de Google.

Co-authors

Hervé Blanchon 1

Marion Potet 1

Venues

Fix author