Alignement de mots par apprentissage de règles de propagation syntaxique en corpus de taille restreinte

Sylwia Ozdowska, Vincent Claveau


Abstract
Cet article présente et évalue une approche originale et efficace permettant d’aligner automatiquement un bitexte au niveau des mots. Pour cela, cette approche tire parti d’une analyse syntaxique en dépendances des bitextes effectuée par les outils SYNTEX et utilise une technique d’apprentissage artificiel, la programmation logique inductive, pour apprendre automatiquement des règles dites de propagation. Celles-ci se basent sur les informations syntaxiques connues pour ensuite aligner les mots avec une grande précision. La méthode est entièrement automatique, et les résultats évalués sur les données de la campagne d’alignement HLT montrent qu’elle se compare aux meilleures techniques existantes. De plus, alors que ces dernières nécessitent plusieurs millions de phrases pour s’entraîner, notre approche n’en requiert que quelques centaines. Enfin, l’examen des règles de propagation inférées permet d’identifier facilement les cas d’isomorphismes et de non-isomorphismes syntaxiques entre les deux langues traitées.
Anthology ID:
2005.jeptalnrecital-long.25
Volume:
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2005
Address:
Dourdan, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
241–250
Language:
French
URL:
https://aclanthology.org/2005.jeptalnrecital-long.25
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2005.jeptalnrecital-long.25.pdf