Paradocs: un système d’identification automatique de documents parallèles

Alexandre Patry, Philippe Langlais


Abstract
Les corpus parallèles sont d’une importance capitale pour les applications multilingues de traitement automatique des langues. Malheureusement, leur rareté est le maillon faible de plusieurs applications d’intérêt. Extraire de tels corpus duWeb est une solution viable, mais elle introduit une nouvelle problématique : il n’est pas toujours trivial d’identifier les documents parallèles parmi tous ceux qui ont été extraits. Dans cet article, nous nous intéressons à l’identification automatique des paires de documents parallèles contenues dans un corpus bilingue. Nous montrons que cette tâche peut être accomplie avec précision en utilisant un ensemble restreint d’invariants lexicaux. Nous évaluons également notre approche sur une tâche de traduction automatique et montrons qu’elle obtient des résultats supérieurs à un système de référence faisant usage d’un lexique bilingue.
Anthology ID:
2005.jeptalnrecital-long.23
Volume:
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2005
Address:
Dourdan, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
221–230
Language:
French
URL:
https://aclanthology.org/2005.jeptalnrecital-long.23
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2005.jeptalnrecital-long.23.pdf