Transducteurs à fenêtre glissante pour l’induction lexicale

Yves Scherrer


Abstract
Nous appliquons différents modèles de similarité graphique à la tâche de l’induction de lexiques bilingues entre un dialecte de Suisse allemande et l’allemand standard. Nous comparons des transducteurs stochastiques utilisant des fenêtres glissantes de 1 à 3 caractères, entraînés à l’aide de l’algorithme de maximisation de l’espérance avec des corpus d’entraînement de tailles différentes. Si les transducteurs à unigrammes donnent des résultats satisfaisants avec des corpus très petits, nous montrons que les transducteurs à bigrammes les dépassent à partir de 750 paires de mots d’entraînement. En général, les modèles entraînés nous ont permis d’améliorer la F-mesure de 7% à 15% par rapport à la distance de Levenshtein.
Anthology ID:
2008.jeptalnrecital-recital.8
Volume:
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Month:
June
Year:
2008
Address:
Avignon, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
70–79
Language:
French
URL:
https://aclanthology.org/2008.jeptalnrecital-recital.8
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2008.jeptalnrecital-recital.8.pdf