Développement de ressources pour le persan : PerLex 2, nouveau lexique morphologique et MEltfa, étiqueteur morphosyntaxique (Development of resources for Persian: PerLex 2, a new morphological lexicon and MEltfa, a morphosyntactic tagger)

Benoît Sagot, Géraldine Walther, Pegah Faghiri, Pollet Samvelian


Abstract
Nous présentons une nouvelle version de PerLex, lexique morphologique du persan, une version corrigée et partiellement réannotée du corpus étiqueté BijanKhan (BijanKhan, 2004) et MEltfa, un nouvel étiqueteur morphosyntaxique librement disponible pour le persan. Après avoir développé une première version de PerLex (Sagot & Walther, 2010), nous en proposons donc ici une version améliorée. Outre une validation manuelle partielle, PerLex 2 repose désormais sur un inventaire de catégories linguistiquement motivé. Nous avons également développé une nouvelle version du corpus BijanKhan : elle contient des corrections significatives de la tokenisation ainsi qu’un réétiquetage à l’aide des nouvelles catégories. Cette nouvelle version du corpus a enfin été utilisée pour l’entraînement de MEltfa, notre étiqueteur morphosyntaxique pour le persan librement disponible, s’appuyant à la fois sur ce nouvel inventaire de catégories, sur PerLex 2 et sur le système d’étiquetage MElt (Denis & Sagot, 2009).
Anthology ID:
2011.jeptalnrecital-court.13
Volume:
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
June
Year:
2011
Address:
Montpellier, France
Editors:
Mathieu Lafourcade, Violaine Prince
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
73–78
Language:
French
URL:
https://aclanthology.org/2011.jeptalnrecital-court.13
DOI:
Bibkey:
Cite (ACL):
Benoît Sagot, Géraldine Walther, Pegah Faghiri, and Pollet Samvelian. 2011. Développement de ressources pour le persan : PerLex 2, nouveau lexique morphologique et MEltfa, étiqueteur morphosyntaxique (Development of resources for Persian: PerLex 2, a new morphological lexicon and MEltfa, a morphosyntactic tagger). In Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts, pages 73–78, Montpellier, France. ATALA.
Cite (Informal):
Développement de ressources pour le persan : PerLex 2, nouveau lexique morphologique et MEltfa, étiqueteur morphosyntaxique (Development of resources for Persian: PerLex 2, a new morphological lexicon and MEltfa, a morphosyntactic tagger) (Sagot et al., JEP/TALN/RECITAL 2011)
Copy Citation:
PDF:
https://aclanthology.org/2011.jeptalnrecital-court.13.pdf