@inproceedings{bouzidi-etal-2017-traitement,
title = "Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document {OCR}is{\'e}s en Arabe (This article presents a new system that automatically translates images of {A}rabic documents)",
author = "Bouzidi, Kamel and
Elloumi, Zied and
Besacier, Laurent and
Lecouteux, Benjamin and
Benzeghiba, Mohamed-Faouzi",
editor = "Eshkol-Taravella, Iris and
Antoine, Jean-Yves",
booktitle = "Actes des 24{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles. Volume 1 - Articles longs",
month = "6",
year = "2017",
address = "Orl{\'e}ans, France",
publisher = "ATALA",
url = "https://aclanthology.org/2017.jeptalnrecital-long.5",
pages = "63--76",
abstract = "Cet article pr{\'e}sente un syst{\`e}me original de traduction de documents num{\'e}ris{\'e}s en arabe. Deux modules sont cascad{\'e}s : un syst{\`e}me de reconnaissance optique de caract{\`e}res (OCR) en arabe et un syst{\`e}me de traduction automatique (TA) arabe-fran{\c{c}}ais. Le couplage OCR-TA a {\'e}t{\'e} peu abord{\'e} dans la litt{\'e}rature et l{'}originalit{\'e} de cette {\'e}tude consiste {\`a} proposer un couplage {\'e}troit entre OCR et TA ainsi qu{'}un traitement sp{\'e}cifique des mots hors vocabulaire (MHV) engendr{\'e}s par les erreurs d{'}OCRisation. Le couplage OCR-TA par treillis et notre traitement des MHV par remplacement selon une mesure composite qui prend en compte forme de surface et contexte du mot, permettent une am{\'e}lioration significative des performances de traduction. Les exp{\'e}rimentations sont r{\'e}alis{\'e}s sur un corpus de journaux num{\'e}ris{\'e}s en arabe et permettent d{'}obtenir des am{\'e}liorations en score BLEU de 3,73 et 5,5 sur les corpus de d{\'e}veloppement et de test respectivement.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="bouzidi-etal-2017-traitement">
<titleInfo>
<title>Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe (This article presents a new system that automatically translates images of Arabic documents)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Kamel</namePart>
<namePart type="family">Bouzidi</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Zied</namePart>
<namePart type="family">Elloumi</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Laurent</namePart>
<namePart type="family">Besacier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benjamin</namePart>
<namePart type="family">Lecouteux</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Mohamed-Faouzi</namePart>
<namePart type="family">Benzeghiba</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2017-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 - Articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Iris</namePart>
<namePart type="family">Eshkol-Taravella</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jean-Yves</namePart>
<namePart type="family">Antoine</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Orléans, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Cet article présente un système original de traduction de documents numérisés en arabe. Deux modules sont cascadés : un système de reconnaissance optique de caractères (OCR) en arabe et un système de traduction automatique (TA) arabe-français. Le couplage OCR-TA a été peu abordé dans la littérature et l’originalité de cette étude consiste à proposer un couplage étroit entre OCR et TA ainsi qu’un traitement spécifique des mots hors vocabulaire (MHV) engendrés par les erreurs d’OCRisation. Le couplage OCR-TA par treillis et notre traitement des MHV par remplacement selon une mesure composite qui prend en compte forme de surface et contexte du mot, permettent une amélioration significative des performances de traduction. Les expérimentations sont réalisés sur un corpus de journaux numérisés en arabe et permettent d’obtenir des améliorations en score BLEU de 3,73 et 5,5 sur les corpus de développement et de test respectivement.</abstract>
<identifier type="citekey">bouzidi-etal-2017-traitement</identifier>
<location>
<url>https://aclanthology.org/2017.jeptalnrecital-long.5</url>
</location>
<part>
<date>2017-6</date>
<extent unit="page">
<start>63</start>
<end>76</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe (This article presents a new system that automatically translates images of Arabic documents)
%A Bouzidi, Kamel
%A Elloumi, Zied
%A Besacier, Laurent
%A Lecouteux, Benjamin
%A Benzeghiba, Mohamed-Faouzi
%Y Eshkol-Taravella, Iris
%Y Antoine, Jean-Yves
%S Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 - Articles longs
%D 2017
%8 June
%I ATALA
%C Orléans, France
%G French
%F bouzidi-etal-2017-traitement
%X Cet article présente un système original de traduction de documents numérisés en arabe. Deux modules sont cascadés : un système de reconnaissance optique de caractères (OCR) en arabe et un système de traduction automatique (TA) arabe-français. Le couplage OCR-TA a été peu abordé dans la littérature et l’originalité de cette étude consiste à proposer un couplage étroit entre OCR et TA ainsi qu’un traitement spécifique des mots hors vocabulaire (MHV) engendrés par les erreurs d’OCRisation. Le couplage OCR-TA par treillis et notre traitement des MHV par remplacement selon une mesure composite qui prend en compte forme de surface et contexte du mot, permettent une amélioration significative des performances de traduction. Les expérimentations sont réalisés sur un corpus de journaux numérisés en arabe et permettent d’obtenir des améliorations en score BLEU de 3,73 et 5,5 sur les corpus de développement et de test respectivement.
%U https://aclanthology.org/2017.jeptalnrecital-long.5
%P 63-76
Markdown (Informal)
[Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe (This article presents a new system that automatically translates images of Arabic documents)](https://aclanthology.org/2017.jeptalnrecital-long.5) (Bouzidi et al., JEP/TALN/RECITAL 2017)
ACL