2011
pdf
bib
Babouk – exploration orientée du web pour la constitution de corpus et de terminologies (Babouk – oriented exploration of the web for the construction of corpora and terminologies)
Clément de Groc
|
Javier Couto
|
Helena Blancafort
|
Claude de Loupy
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
pdf
bib
LOL : Langage objet dédié à la programmation linguistique (LOL: Object-oriented language dedicated to linguistic programming)
Jimmy Ma
|
Mickaël Mounier
|
Helena Blancafort
|
Javier Couto
|
Claude de Loupy
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
2010
pdf
bib
abs
Traitement des inconnus : une approche systématique de l’incomplétude lexicale
Helena Blancafort
|
Gaëlle Recourcé
|
Javier Couto
|
Benoît Sagot
|
Rosa Stern
|
Denis Teyssou
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Cet article aborde le phénomène de l’incomplétude des ressources lexicales, c’est-à-dire la problématique des inconnus, dans un contexte de traitement automatique. Nous proposons tout d’abord une définition opérationnelle de la notion d’inconnu. Nous décrivons ensuite une typologie des différentes classes d’inconnus, motivée par des considérations linguistiques et applicatives ainsi que par l’annotation des inconnus d’un petit corpus selon notre typologie. Cette typologie sera mise en oeuvre et validée par l’annotation d’un corpus important de l’Agence France-Presse dans le cadre du projet EDyLex.
pdf
bib
abs
Learning Morphology of Romance, Germanic and Slavic Languages with the Tool Linguistica
Helena Blancafort
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
In this paper we present preliminary work conducted on semi-automatic induction of inflectional paradigms from non annotated corpora using the open-source tool Linguistica (Goldsmith 2001) that can be utilized without any prior knowledge of the language. The aim is to induce morphology information from corpora such as to compare languages and foresee the difficulty to develop morphosyntactic lexica. We report on a series of corpus-based experiments run with Linguistica in Romance languages (Catalan, French, Italian, Portuguese, and Spanish), Germanic languages (Dutch, English and German), and Slavic language Polish. For each language we obtained interesting clusters of stems sharing the same suffixes. They can be seen as mini inflectional paradigms that include productive derivative suffixes. We ranked results depending on the size of the paradigms (maximum number of suffixes per stem) per language. Results show that it is useful to get a first idea of the role and complexity of inflection and derivation in a language, to compare results with other languages, and that it could be useful to build lexicographic resources from scratch. Still, special post-processing is needed to face the two principal drawbacks of the tool: no clear distinction between inflection and derivation, and not taking allomorphy into account.
pdf
bib
abs
OAL: A NLP Architecture to Improve the Development of Linguistic Resources for NLP
Javier Couto
|
Helena Blancafort
|
Somara Seng
|
Nicolas Kuchmann-Beauger
|
Anass Talby
|
Claude de Loupy
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
The performance of most NLP applications relies upon the quality of linguistic resources. The creation, maintenance and enrichment of those resources are a labour-intensive task, especially when no tools are available. In this paper we present the NLP architecture OAL, designed to assist computational linguists in the whole process of the development of resources in an industrial context: from corpora compilation to quality assurance. To add new words more easily to the morphosyntactic lexica, a guesser that lemmatizes and assigns morphosyntactic tags as well as inflection paradigms to a new word has been developed. Moreover, different control mechanisms are set up to check the coherence and consistency of the resources. Today OAL manages resources in five European languages: French, English, Spanish, Italian and Polish. Chinese and Portuguese are in process. The development of OAL has followed an incremental strategy. At present, semantic lexica, a named entities guesser and a named entities phonetizer are being developed.
2009
pdf
bib
abs
Association automatique de lemmes et de paradigmes de flexion à un mot inconnu
Claude De Loupy
|
Michaël Bagur
|
Helena Blancafort
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
La maintenance et l’enrichissement des lexiques morphosyntaxiques sont souvent des tâches fastidieuses. Dans cet article nous présentons la mise en place d’une procédure de guessing de flexion afin d’aider les linguistes dans leur travail de lexicographes. Le guesser développé ne fait pas qu’évaluer l’étiquette morphosyntaxique comme c’est généralement le cas. Il propose pour un mot français inconnu, un ou plusieurs candidats-lemmes, ainsi que les paradigmes de flexion associés (formes fléchies et étiquettes morphosyntaxiques). Dans cet article, nous décrivons le modèle probabiliste utilisé ainsi que les résultats obtenus. La méthode utilisée permet de réduire considérablement le nombre de règles à valider, permettant ainsi un gain de temps important.