Apprentissage non supervisé de la morphologie d’une langue par généralisation de relations analogiques

Jean-François Lavallée, Philippe Langlais


Abstract
Bien que les approches fondées sur la théorie de l’information sont prédominantes dans le domaine de l’analyse morphologique non supervisée, depuis quelques années, d’autres approches ont gagné en popularité, dont celles basées sur l’analogie formelle. Cette dernière reste tout de même marginale due notamment à son coût de calcul élevé. Dans cet article, nous proposons un algorithme basé sur l’analogie formelle capable de traiter les lexiques volumineux. Nous introduisons pour cela le concept de règle de cofacteur qui permet de généraliser l’information capturée par une analogie tout en contrôlant les temps de traitement. Nous comparons notre système à 2 systèmes : Morfessor (Creutz & Lagus, 2005), un système de référence dans de nombreux travaux sur l’analyse morphologique et le système analogique décrit par Langlais (2009). Nous en montrons la supériorité pour 3 des 5 langues étudiées ici : le finnois, le turc, et l’allemand.
Anthology ID:
2010.jeptalnrecital-long.38
Volume:
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
July
Year:
2010
Address:
Montréal, Canada
Editors:
Philippe Langlais, Michel Gagnon
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
373–382
Language:
French
URL:
https://aclanthology.org/2010.jeptalnrecital-long.38
DOI:
Bibkey:
Cite (ACL):
Jean-François Lavallée and Philippe Langlais. 2010. Apprentissage non supervisé de la morphologie d’une langue par généralisation de relations analogiques. In Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs, pages 373–382, Montréal, Canada. ATALA.
Cite (Informal):
Apprentissage non supervisé de la morphologie d’une langue par généralisation de relations analogiques (Lavallée & Langlais, JEP/TALN/RECITAL 2010)
Copy Citation:
PDF:
https://aclanthology.org/2010.jeptalnrecital-long.38.pdf