pdf
bib
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Philippe Blache
|
Noël Nguyen
|
Nouredine Chenfour
|
Abdenbi Rajouani
pdf
bib
abs
Mots composés dans les modèles de langue pour la recherche d’information
Carmen Alvarez
|
Philippe Langlais
|
Jian-Yun Nie
Une approche classique en recherche d’information (RI) consiste à bâtir une représentation des documents et des requêtes basée sur les mots simples les constituant. L’utilisation de modèles bigrammes a été étudiée, mais les contraintes sur l’ordre et l’adjacence des mots dans ces travaux ne sont pas toujours justifiées pour la recherche d’information. Nous proposons une nouvelle approche basée sur les modèles de langue qui incorporent des affinités lexicales (ALs), c’est à dire des paires non ordonnées de mots qui se trouvent proches dans un texte. Nous décrivons ce modèle et le comparons aux plus traditionnels modèles unigrammes et bigrammes ainsi qu’au modèle vectoriel.
pdf
bib
abs
Le Regroupement de Types de Mots et l’Unification d’Occurrences de Mots dans des Catégories grammaticales de mots (Clustering of Word Types and Unification of Word Tokens into Grammatical Word-Classes)
Eric Atwell
Ce papier discute la Néoposie: l’inférence auto-adaptive de catégories grammaticales de mots de la langue naturelle. L’inférence grammaticale peut être divisée en deux parties : l’inférence de catégories grammaticales de mots et l’inférence de la structure. Nous examinons les éléments de base de l’apprentissage auto-adaptif du marquage des catégories grammaticales, et discutons l’adaptation des trois types principaux de marqueurs des catégories grammaticales à l’inférence auto-adaptive de catégories grammaticales de mots. Des marqueurs statistiques de n-grammes suggèrent une approche de regroupement statistique, mais le regroupement n’aide ni avec les types de mots peu fréquents, ni avec les types de mots nombreux qui peuvent se présenter dans plus d’une catégorie grammaticale. Le marqueur alternatif d’apprentissage basé sur la transformation suggère une approche basée sur la contrainte de l’unification de contextes d’occurrences de mots. Celle-ci présente un moyen de regrouper des mots peu fréquents, et permet aux occurrences différentes d’un seul type de mot d’appartenir à des catégories différentes selon les contextes grammaticaux où ils se présentent. Cependant, la simple unification de contextes d’occurrences de mots produit un nombre incroyablement grand de catégories grammaticales de mots. Nous avons essayé d’unifier plus de catégories en modérant le contexte de la correspondance pour permettre l’unification des catégories de mots aussi bien que des occurrences de mots, mais cela entraîne des unifications fausses. Nous concluons que l’avenir peut être un hybride qui comprend le regroupement de types de mots peu fréquents, l’unification de contextes d’occurrences de mots, et le ‘seeding’ avec une connaissance linguistique limitée. Nous demandons un programme de nouvelles recherches pour développer une valise pour la découverte de la langue naturelle.
pdf
bib
abs
Temporalité linguistique et S-Langages
Delphine Battistelli
|
Jean-Luc Minel
|
Etienne Picard
|
Sylviane R. Schwer
Après un rappel de la problématique de l’ordonnancement temporel dans un texte, nous décrivons les S-langages qui offrent une représentation unifiée des relations temporelles et une opération (la jointure) permettant de calculer les combinaisons entre celles-ci.
pdf
bib
abs
Modélisation de la modulation
Emmanuel Bellengier
|
Béatrice Priego-Valverde
Le dialogue est un processus interactif pendant lequel les différents agents impliqués vont s’engager sur un certain nombre d’éléments propositionnels. La modulation implique des ajouts propositionnels - révisés et atténués - qui ne constituent pas nécessairement une base pour un accord. L’objectif de cet article est donc de proposer une description formelle du phénomène de modulation dans le cadre du modèle de J. Ginzburg.
pdf
bib
abs
Traduction de dialogue: résultats du projet NESPOLE! et pistes pour le domaine
Hervé Blanchon
|
Laurent Besacier
Dans cet article, nous détaillons les résultats de la seconde évaluation du projet européen NESPOLE! auquel nous avons pris part pour le français. Dans ce projet, ainsi que dans ceux qui l’ont précédé, des techniques d’évaluation subjectives — réalisées par des évaluateurs humains — ont été mises en oeuvre. Nous présentons aussi les nouvelles techniques objectives — automatiques — proposées en traduction de l’écrit et mises en oeuvre dans le projet C-STAR III. Nous conclurons en proposant quelques idées et perspectives pour le domaine.
pdf
bib
abs
Spécification et implantation informatique d’un langage de description des structures discursives
Gustavo Crispino
|
Agata Jackiewicz
|
Jean-Luc Minel
Cet article présente le langage de représentation des connaissances linguistiques LangTex qui permet de spécifier d’une manière unifiée les descriptions linguistiques nécessaires au repérage d’objets textuels qui organisent les textes écrits.
pdf
bib
abs
@GEWEB : Agents personnels d’aide à la recherche sur le Web
Mohamed Yassine El Amrani
|
Sylvain Delisle
|
Ismaïl Biskri
Nous présentons dans cet article un logiciel permettant d’assister l’usager, de manière personnalisée lors de la recherche documentaire sur le Web. L’architecture du logiciel est basée sur l’intégration d’outils numériques de traitements des langues naturelles (TLN). Le système utilise une stratégie de traitement semi-automatique où la contribution de l’utilisateur assure la concordance entre ses attentes et les résultats obtenus.
pdf
bib
abs
Prédiction d’actes et attentes en dialogue : expérience avec un assistant virtuel simulé
Yannick Fouquet
Dans cet article, nous présentons une plate-forme de test et de recueil de dialogue oral homme-machine. Dans son architecture générale, des magiciens d’Oz simulent la compréhension des énoncés des utilisateurs et le contrôle du dialogue. Puis, nous comparons, dans un tel corpus, la prédiction statistique d’acte de dialogue avec les attentes du locuteur.
pdf
bib
abs
Disambiguation and Optional Co-Composition
Pablo Gamallo
|
Gabriel P. Lopes
|
Alexandre Agustini
This paper describes a specific semantic property underlying binary dependencies: co-composition. We propose a more general definition than that given by Pustejovsky, what we call “optional co-composition”. The aim of the paper is to explore the benefits of optional cocomposition in two disambiguation tasks: both word sense and structural disambiguation. Concerning the second task, some experiments were performed on large corpora.
pdf
bib
abs
Le projet GÉRAF : Guide pour l’Évaluation des Résumés Automatiques Français
Marie-Josée Goulet
|
Joël Bourgeoys
Dans cet article, nous présentons le projet GÉRAF (Guide pour l’Évaluation des Résumés Automatiques Français), lequel vise l’élaboration de protocoles et la construction de corpus de résumés de référence pour l’évaluation des systèmes résumant des textes français. La finalité de ce projet est de mettre à la disposition des chercheurs les ressources ainsi créées.
pdf
bib
abs
Repérage de relations terminologiques transversales en corpus
Natalia Grabar
|
Véronique Malaisé
|
Aurélia Marcus
|
Aleksandra Krul
Les relations transversales encodent des relations spécifiques entre les termes, par exemple localisé-dans, consomme, etc. Elles sont très souvent dépendantes des domaines, voire des corpus. Les méthodes automatiques consacrées au repérage de relations terminologiques plus classiques (hyperonymie, synonymie), peuvent générer occasionnellement les relations transversales. Mais leur repérage et typage restent sujets à une conceptualisation : ces relations ne sont pas attendues et souvent pas connues à l’avance pour un nouveau domaine à explorer. Nous nous attachons ici à leur repérage mais surtout à leur typage. En supposant que les relations sont souvent exprimées par des verbes, nous misons sur l’étude des verbes du corpus et de leurs divers dérivés afin d’aborder plus directement la découverte des relations du domaine. Les expériences montrent que ce point d’attaque peut être intéressant, mais reste pourtant dépendant de la polysémie verbale et de la synonymie.
pdf
bib
abs
Classification automatique de définitions en sens
Fabien Jalabert
|
Mathieu Lafourcade
Dans le cadre de la recherche en sémantique lexicale, l’équipe TAL du LIRMM développe actuellement un système d’analyse des aspects thématiques des textes et de désambiguisation lexicale basé sur les vecteurs conceptuels. Pour la construction des vecteurs, les définitions provenant de sources lexicales différentes (dictionnaires à usage humain, listes de synonymes, définitions de thésaurus, . . .) sont analysées. Aucun découpage du sens n’est présent dans la représentation : un vecteur conceptuel est associé à chaque définition et un autre pour représenter le sens global du mot. Nous souhaitons effectuer une catégorisation afin que chaque élément ne soit plus une définition mais un sens. Cette amélioration concerne bien sur directement les applications courantes (désambiguïsation, transfert lexical, . . .) mais a aussi pour objectif majeur d’améliorer l’apprentissage de la base.
pdf
bib
abs
NLP Applications Based onWeightedMulti-Tape Automata
André Kempe
This article describes two practical applications of weighted multi-tape automata (WMTAs) in Natural Language Processing, that demonstrate the augmented descriptive power of WMTAs compared to weighted 1-tape and 2-tape automata. The two examples concern the preservation of intermediate results in transduction cascades and the search for similar words in two languages. As a basis for these applications, the article proposes a number of operations on WMTAs. Among others, it (re-)defines multi-tape intersection, where a number of tapes of one WMTA are intersected with the same number of tapes of another WMTA. In the proposed approach, multi-tape intersection is not an atomic operation but rather a sequence of more elementary ones, which facilitates its implementation.
pdf
bib
abs
Multiple Lexicon Generation based on Phonological Feature Trees
Moritz Neugebauer
|
Stephen Wilson
Tree-based data structures are commonly used by computational linguists for the documentation and analysis of morphological and syntactic data. In this paper we apply such structures to phonological data and demonstrate how such representations can have practical and beneficial applications in computational lexicography. To this end, we describe three integrated modules: the first defines a multilingual feature set within a tree-based structure using XML; the second module traverses this tree and generalises over the data contained within it, optimising the phonological data and highlighting feature implications. The third uses the information contained within the tree representation as a knowledge base for the generation of multiple feature-based syllable lexica.
pdf
bib
abs
Gestion de buts de dialogue
Jean Caelen
|
Hoâ Nguyen
La gestion du but de dialogue est une tâche délicate pour le contrôleur de dialogue, car bien souvent il est en concurrence avec le gestionnaire de tâches avec lequel on le confond parfois dans certains systèmes. Dans cet article, nous présentons une stratégie dynamique de gestion de buts qui permet au contrôleur de dialogue de réduire sa dépendance au gestionnaire de tâche et lui apporte une meilleure réutilisabilité. Nous expérimentons le système dans le cadre du projet PVE (Portail Vocal d’Entreprise) dans lequel le dialogue peut se dérouler en plusieurs sessions et avec des interlocuteurs différents.
pdf
bib
abs
Un modèle d’interprétation constructionnelle pour les expressions référentielles extensionnelles
Guillaume Pitel
|
Jean-Paul Sansonnet
Dans le dialogue finalisé, les expressions référentielles portant sur les objets du contexte peuvent contenir des prédicats vagues ou relationnels, qu’il est difficile de traiter avec une logique propositionnelle. Inversement, les approches adaptées à ces types de prédicats sont difficilement implémentables dans un modèle générique et adaptable aux théories d’analyse linguistique. Nous proposons un modèle d’interprétation constructionnelle inspiré des grammaires de construction qui permet de modéliser le processus de résolution d’expressions référentielles extensionnelles tout en restant compatible avec la grammaire dont nous nous sommes inspirés.
pdf
bib
abs
Apprentissage collectif et lexique
Julien Poudade
|
Patrick Paroubek
Cet article présente l’influence de la zone de travail que possède une entité logicielle pour lui permettre de prédire l’état futur de son environnement, sur la constitution d’un lexique partagé par les différents membres d’une population, dans le cadre d’une variante “du jeu de désignation” (naming game).
pdf
bib
abs
L’outil de traitement de corpus LIKES
François Rousselot
LIKES (LInguistic and Knowledge Engineering Station) est une station d’ingénierie linguistique destinée à traiter des corpus, elle fonctionne pour l’instant sur la plupart des langues européennes et slaves en utilisant des ressources minimales pour chaque langue. Les corpus sont constitués d’un ou plusieurs textes en ASCII ou en HTML, l’interface donne la possibilité de constituer son corpus et d’y exécuter un certain nombre de tâches allant de simples tâches de découpage en mot, de tri ou de recherche de motifs à des tâches plus complexes d’aide à la synthèse de grammaire, d’aide au repérage de relations, d’aide à la construction d’une terminologie. Nous décrivons ici les principales fonctionnalités de LIKES en rapport avec le traitement des corpus et ce qui fait sa spécificité par rapport à d’autres environnements comparables : l’utilisation minimale de ressources linguistiques.
pdf
bib
abs
Résolution automatique d’anaphores infidèles en français : Quelles ressources pour quels apports ?
Susanne Salmon-Alt
La performance d’une résolution automatique d’anaphores infidèles pour le français pourrait atteindre une F-mesure de 30%. Ce résultat repose toutefois sur une ressource équivalente à un bon dictionnaire de la langue française, une analyse syntaxique de qualité satisfaisante et un traitement performant des entités nommées. En l’absence de telles ressources, les meilleurs résultats plafonnent autour d’une F-mesure de 15%.
pdf
bib
abs
SibyMot : Modélisation stochastique du langage intégrant la notion de chunks
Igor Schadle
|
Jean-Yves Antoine
|
Brigitte Le Pévédic
|
Franck Poirier
Cet article présente le modèle de langage développé pour le système Sibylle, un système d’aide à la communication pour les personnes handicapées. L’utilisation d’un modèle de langage permet d’améliorer la pertinence des mots proposés en tenant compte du contexte gauche de la saisie en cours. L’originalité de notre modèle se situe dans l’intégration de la notion de chunks afin d’élargir la taille du contexte pris en compte pour l’estimation de la probabilité d’apparition des mots.
pdf
bib
abs
Extracting Named Entities. A Statistical Approach
Joaquim Silva
|
Zornitsa Kozareva
|
Veska Noncheva
|
Gabriel Lopes
Named entities and more generally Multiword Lexical Units (MWUs) are important for various applications. However, language independent methods for automatically extracting MWUs do not provide us with clean data. So, in this paper we propose a method for selecting possible named entities from automatically extracted MWUs, and later, a statistics-based language independent unsupervised approach is applied to possible named entities in order to cluster them according to their type. Statistical features used by our clustering process are described and motivated. The Model-Based Clustering Analysis (MBCA) software enabled us to obtain different clusters for proposed named entities. The method was applied to Bulgarian and English. For some clusters, precision is very high; other clusters still need further refinement. Based on the obtained clusters, it is also possible to classify new possible named entities.
pdf
bib
abs
Analogies dans les séquences : un solveur à états finis
Nicolas Stroppa
|
François Yvon
L’apprentissage par analogie se fonde sur un principe inférentiel potentiellement pertinent pour le traitement des langues naturelles. L’utilisation de ce principe pour des tâches d’analyse linguistique présuppose toutefois une définition formelle de l’analogie entre séquences. Dans cet article, nous proposons une telle définition et montrons qu’elle donne lieu à l’implantation efficace d’un solveur d’équations analogiques sous la forme d’un transducteur fini. Munis de ces résultats, nous caractérisons empiriquement l’extension analogique de divers langages finis, correspondant à des dictionnaires de quatre langues.
pdf
bib
abs
An electronic dictionary as a basis for NLP tools: The Greek case
Christos Tsalidis
|
Aristides Vagelatos
|
Giorgos Orphanos
The existence of a Dictionary in electronic form for Modern Greek (MG) is mandatory if one is to process MG at the morphological and syntactic levels since MG is a highly inflectional language with marked stress and a spelling system with many characteristics carried over from Ancient Greek. Moreover, such a tool becomes necessary if one is to create efficient and sophisticated NLP applications with substantial linguistic backing and coverage. The present paper will focus on the deployment of such an electronic dictionary for Modern Greek, which was built in two phases: first it was constructed to be the basis for a spelling correction schema and then it was reconstructed in order to become the platform for the deployment of a wider spectrum of NLP tools.
pdf
bib
abs
Modèle de langage sémantique pour la reconnaissance automatique de parole dans un contexte de traduction
Quang Vu-minh
|
Laurent Besacier
|
Hervé Blanchon
|
Brigitte Bigi
Le travail présenté dans cet article a été réalisé dans le cadre d’un projet global de traduction automatique de la parole. L’approche de traduction est fondée sur un langage pivot ou Interchange Format (IF), qui représente le sens de la phrase indépendamment de la langue. Nous proposons une méthode qui intègre des informations sémantiques dans le modèle statistique de langage du système de Reconnaissance Automatique de Parole. Le principe consiste a utiliser certaines classes définies dans l’IF comme des classes sémantiques dans le modèle de langage. Ceci permet au système de reconnaissance de la parole d’analyser partiellement en IF les tours de parole. Les expérimentations realisées montrent qu’avec cette approche, le système de reconnaissance peut analyser directement en IF une partie des données de dialogues de notre application, sans faire appel au système de traduction (35% des mots ; 58% des tours de parole), tout en maintenant le même niveau de performance du système global.