Marwa Hadj Salah

Also published as: Marwa Hadj Salah


2018

pdf bib
Traduction automatique de corpus en anglais annotés en sens pour la désambiguïsation lexicale d’une langue moins bien dotée, l’exemple de l’arabe (Automatic Translation of English Sense Annotated Corpora for Word Sense Disambiguation of a Less Well-endowed Language, the Example of Arabic)
Marwa Hadj Salah | Loïc Vial | Hervé Blanchon | Mounir Zrigui | Didier Schwab
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Les corpus annotés en sens sont des ressources cruciales pour la tâche de désambiguïsation lexicale (Word Sense Disambiguation). La plupart des langues n’en possèdent pas ou trop peu pour pouvoir construire des systèmes robustes. Nous nous intéressons ici à la langue arabe et présentons 12 corpus annotés en sens, fabriqués automatiquement à partir de 12 corpus en langue anglaise. Nous évaluons la qualité de nos systèmes de désambiguïsation grâce à un corpus d’évaluation en arabe nouvellement disponible.

pdf bib
Un corpus en arabe annoté manuellement avec des sens WordNet (Arabic Manually Sense Annotated Corpus with WordNet Senses)
Marwa Hadj Salah | Hervé Blanchon | Mounir Zrigui | Didier Schwab
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

OntoNotes comprend le seul corpus manuellement annoté en sens librement disponible pour l’arabe. Elle reste peu connue et utilisée certainement parce que le projet s’est achevé sans lier cet inventaire au Princeton WordNet qui lui aurait ouvert l’accès à son riche écosystème. Dans cet article, nous présentons une version étendue de OntoNotes Release 5.0 que nous avons créée en suivant une méthodologie de construction semi-automatique. Il s’agit d’une mise à jour de la partie arabe annotée en sens du corpus en ajoutant l’alignement vers le Princeton WordNet 3.0. Cette ressource qui comprend plus de 12 500 mots annotés est librement disponible pour la communauté. Nous espérons qu’elle deviendra un standard pour l’évaluation de la désambiguïsation lexicale de l’arabe.

2016

pdf bib
Amélioration de la traduction automatique d’un corpus annoté (Improvement of the automatic translation of an annotated corpus)
Marwa Hadj Salah | Hervé Blanchon | Mounir Zrigui | Didier Schwab
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Dans cet article, nous présentons une méthode pour améliorer la traduction automatique d’un corpus annoté et porter ses annotations de l’anglais vers une langue cible. Il s’agit d’améliorer la méthode de (Nasiruddin et al., 2015) qui donnait de nombreux segments non traduits, des duplications et des désordres. Nous proposons un processus de pré-traitement du SemCor anglais, pour qu’il soit adapté au système de traduction automatique statistique utilisé, ainsi qu’un processus de post-traitement pour la sortie. Nous montrons une augmentation de 2,9 points en terme de score F1 sur une tâche de désambiguïsation lexicale ce qui prouve l’efficacité de notre méthode.