2013
pdf
bib
Linguistic Resources and Topic Models for the Analysis of Persian Poems
Ehsaneddin Asgari
|
Jean-Cédric Chappelier
Proceedings of the Workshop on Computational Linguistics for Literature
2009
pdf
bib
abs
Utilisation de PLSI en recherche d’information Représentation des requêtes
Jean-Cédric Chappelier
|
Emmanuel Eckard
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Le modèle PLSI (« Probabilistic Latent Semantic Indexing ») offre une approche de l’indexation de documents fondée sur des modèles probabilistes de catégories sémantiques latentes et a conduit à des applications dans différents domaines. Toutefois, ce modèle rend impossible le traitement de documents inconnus au moment de l’apprentissage, problème particulièrement sensible pour la représentation des requêtes dans le cadre de la recherche d’information. Une méthode, dite de « folding-in », permet dans une certaine mesure de contourner ce problème, mais présente des faiblesses. Cet article introduit nouvelle une mesure de similarité document-requête pour PLSI, fondée sur lesmodèles de langue, où le problème du « folding-in » ne se pose pas. Nous comparons cette nouvelle similarité aux noyaux de Fisher, l’état de l’art en la matière. Nous présentons aussi une évaluation de PLSI sur un corpus de recherche d’information de près de 7500 documents et de plus d’un million d’occurrences de termes provenant de la collection TREC–AP, une taille considérable dans le cadre de PLSI.
2006
pdf
bib
Robust stochastic parsing: Comparing and combining two approaches for processing extra-grammatical sentences
Marita Ailomaa
|
Vladimír Kadlec
|
Martin Rajman
|
Jean-Cédric Chappelier
Proceedings of the 15th Nordic Conference of Computational Linguistics (NODALIDA 2005)
2005
pdf
bib
abs
Indexation Sémantique par Coupes de Redondance Minimale dans une Ontologie
Florian Seydoux
|
Jean-Cédric Chappelier
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Plusieurs travaux antérieurs ont fait état de l’amélioration possible des performances des systèmes de recherche documentaire grace à l’utilisation d’indexation sémantique utilisant une ontologie (p.ex. WordNet). La présente contribution décrit une nouvelle méthode visant à réduire le nombre de termes d’indexation utilisés dans une indexation sémantique, en cherchant la coupe de redondance minimale dans la hiérarchie fournie par l’ontologie. Les résultats, obtenus sur diverses collections de documents en utilisant le dictionnaire EDR, sont présentés.
2003
pdf
bib
abs
Apprentissage discriminant pour les Grammaires à Substitution d’Arbres
Antoine Rozenknop
|
Jean-Cédric Chappelier
|
Martin Rajman
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Les grammaires stochastiques standards utilisent des modèles probabilistes de nature générative, fondés sur des probabilités de récriture conditionnées par le symbole récrit. Les expériences montrent qu’elles tendent ainsi par nature à pénaliser les dérivations les plus longues pour une meme entrée, ce qui n’est pas forcément un comportement souhaitable, ni en analyse syntaxique, ni en reconnaissance de la parole. Dans cet article, nous proposons une approche probabiliste non-générative du modèle STSG (grammaire stochastique à substitution d’arbres), selon laquelle les probabilités sont conditionnées par les feuilles des arbres syntaxiques plutot que par leur racine, et qui par nature fait appel à un apprentissage discriminant. Plusieurs expériences sur ce modèle sont présentées.
2002
pdf
bib
abs
Polynomial Tree Substitution Grammars: Characterization and New Examples
Jean-Cédric Chappelier
|
Martin Rajman
|
Antoine Rozenknop
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Polynomial Tree Substitution Grammars, a subclass of STSGs for which finding the most probable parse is no longer NP-hard but polynomial, are defined and characterized in terms of general properties on the elementary trees in the grammar. Various sufficient and easy to compute properties for a STSG to be polynomial are presented. The min-max selection principle is shown to be one such sufficient property. In addition, another, new, instance of a sufficient property, based on lexical heads, is presented. The performances of both models are evaluated on several corpora.
2001
pdf
bib
abs
Intégration probabiliste de sens dans la représentation de textes
Romaric Besançon
|
Antoine Rozenknop
|
Jean-Cédric Chappelier
|
Martin Rajman
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Le sujet du présent article est l’intégration des sens portés par les mots en contexte dans une représentation vectorielle de textes, au moyen d’un modèle probabiliste. La représentation vectorielle considérée est le modèle DSIR, qui étend le modèle vectoriel (VS) standard en tenant compte à la fois des occurrences et des co-occurrences de mots dans les documents. L’intégration des sens dans cette représentation se fait à l’aide d’un modèle de Champ de Markov avec variables cachées, en utilisant une information sémantique dérivée de relations de synonymie extraites d’un dictionnaire de synonymes.
pdf
bib
abs
Grammaire à substitution d’arbre de complexité polynomiale : un cadre efficace pour DOP
Jean-Cédric Chappelier
|
Martin Rajman
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Trouver l’arbre d’analyse le plus probable dans le cadre du modèle DOP (Data-Oriented Parsing) — une version probabiliste de grammaire à substitution d’arbres développée par R. Bod (1992) — est connu pour être un problème NP-difficile dans le cas le plus général (Sima’an, 1996a). Cependant, si l’on introduit des restrictions a priori sur le choix des arbres élémentaires, on peut obtenir des instances particulières de DOP pour lesquelles la recherche de l’arbre d’analyse le plus probable peut être effectuée en un temps polynomial (par rapport à la taille de la phrase à analyser). La présente contribution se propose d’étudier une telle instance polynomiale de DOP, fondée sur le principe de sélection miminale-maximale et d’en évaluer les performances sur deux corpus différents.
2000
pdf
bib
Development of Acoustic and Linguistic Resources for Research and Evaluation in Interactive Vocal Information Servers
Giulia Bernardis
|
Hervé Bourlard
|
Martin Rajman
|
Jean-Cédric Chappelier
Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00)