Journées d'Etudes sur la Parole / Traitement Automatique de la Langue Naturelle / Rencontres des Etudiants Chercheurs en Informatique et Traitement Automatique des Langues (2003)


up

bib (full) Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

pdf bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Béatrice Daille | Emmanuel Morin

pdf bib
Quand le TAL robuste s’attaque au langage parlé : analyse incrémentale pour la compréhension de la parole spontanée
Jean-Yves Antoine | Jérôme Goulian | Jeanne Villaneau

Dans cet article, nous discutons de l’application au langage parlé des techniques d’analyse syntaxique robuste développées pour l’écrit. Nous présentons deux systèmes de compréhension de parole spontané en situation de dialogue homme-machine finalisé, dont les performances montrent la pertinence de ces méthodes pour atteindre une compréhension fine et robuste des énoncés oraux.

pdf bib
Etude des critères de désambiguïsation sémantique automatique : résultats sur les cooccurrences
Laurent Audibert

Nous présentons dans cet article une étude sur les critères de désambiguïsation sémantique automatique basés sur les cooccurrences. L’algorithme de désambiguïsation utilisé est du type liste de décision, il sélectionne une cooccurrence unique supposée véhiculer l’information la plus fiable dans le contexte ciblé. Cette étude porte sur 60 vocables répartis, de manière égale, en trois classes grammaticales (nom, adjectif et verbe) avec une granularité fine au niveau des sens. Nous commentons les résultats obtenus par chacun des critères évalués de manière indépendante et nous nous intéressons aux particularités qui différencient les trois classes grammaticales étudiées. Cette étude s’appuie sur un corpus français étiqueté sémantiquement dans le cadre du projet SyntSem.

pdf bib
Nouvelle approche de la sélection de vocabulaire pour la détection de thème
Armelle Brun | Kamel Smaïli | Jean-Paul Haton

En reconnaissance de la parole, un des moyens d’améliorer les performances des systèmes est de passer par l’adaptation des modèles de langage. Une étape cruciale de ce processus consiste à détecter le thème du document traité et à adapter ensuite le modèle de langage. Dans cet article, nous proposons une nouvelle approche de création des vocabulaires utilisés pour la détection de thème. Cette dernière est fondée sur le développement de vocabulaires spécifiques et caractéristiques des différents thèmes. Nous montrons que cette approche permet non seulement d’améliorer les performances des méthodes, mais exploite également des vocabulaires de taille réduite. De plus, elle permet d’améliorer de façon très significative les performances de méthodes de détection lorsqu’elles sont combinées.

pdf bib
Classification automatique de textes à partir de leur analyse syntaxico-sémantique
Jacques Chauché | Violaine Prince | Simon Jaillet | Maguelonne Teisseire

L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de “similarités”de surface.

pdf bib
Extraction de couples nom-verbe sémantiquement liés : une technique symbolique automatique
Vincent Claveau

Dans le modèle du Lexique génératif (Pustejovsky, 1995), certaines propriétés sémantiques des noms sont exprimées à l’aide de verbes. Les couples nom-verbe ainsi formés présentent un intérêt applicatif notamment en recherche d’information. Leur acquisition sur corpus constitue donc un enjeu, mais la découverte des patrons qui les définissent en contexte est également importante pour la compréhension même du modèle du Lexique génératif. Cet article présente une technique entièrement automatique permettant de répondre à ce double besoin d’extraction sur corpus de couples et de patrons morpho-syntaxiques et sémantiques. Elle combine pour ce faire deux approches d’acquisition— l’approche statistique et l’approche symbolique— en conservant les avantages propres à chacune d’entre elles : robustesse et automatisation des méthodes statistiques, qualité et expressivité des résultats des techniques symboliques.

pdf bib
Une plate-forme de conception et d’exploitation d’une grammaire d’arbres adjoints lexicalisés
Benoît Crabbé | Bertrand Gaiffe | Azim Roussanaly

Dans cet article, nous présentons un ensemble d’outils de conception et d’exploitation pour des grammaires d’arbres adjoints lexicalisés. Ces outils s’appuient sur une représentation XML des ressources (lexique et grammaire). Dans notre représentation, à chaque arbre de la grammaire est associé un hypertag décrivant les phénomènes linguistiques qu’il recouvre. De ce fait, la liaison avec le lexique se trouve plus compactée et devient plus aisée à maintenir. Enfin, un analyseur permet de valider les grammaires et les lexiques ainsi conçus aussi bien de façon interactive que différée sur des corpus.

pdf bib
Peut-on trouver la taille de contexte optimale en désambiguïsation sémantique?
Éric Crestan | Marc El-Bèze | Claude De Loupy

Dans la tâche de désambiguïsation sémantique, la détermination de la taille optimale de fenêtre de contexte à utiliser, a fait l’objet de plusieurs études. Dans cet article, nous proposons une approche à deux niveaux pour répondre à cette problématique de manière automatique. Trois systèmes concurrents à base d’arbres de classification sémantique sont, dans un premier temps, utilisés pour déterminer les trois sens les plus vraisemblables d’un mot. Ensuite, un système décisionnel tranche entre ces sens au regard d’un contexte plus étendu. Les améliorations constatées lors d’expériences menées sur les données de SENSEVAL-1 et vérifiées sur les données SENSEVAL-2 sont significatives.

pdf bib
Représentation sémantique sous-spécifiée pour les conjonctions de subordination
Laurence Danlos

Cet article concerne les phrases complexes avec deux conjonctions de subordination. Nous montrerons que de telles phrases peuvent s’interpréter de quatre façons différentes. Il s’agit donc de formes fortement ambiguës pour lesquelles il est opportun d’avoir recours à des représentations sémantiques sous-spécifiées, et c’est ce que nous proposerons.

pdf bib
Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable
Gaël de Chalendar | Faïza El Kateb | Olivier Ferret | Brigitte Grau | Martine Hurault-Plantet | Laura Monceaux | Isabelle Robba | Anne Vilnat

La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.

pdf bib
Apprentissage Automatique de Paraphrases pour l’Amélioration d’un Système de Questions-Réponses
Florence Duclaye | Olivier Collin | François Yvon

Dans cet article, nous présentons une méthodologie d’apprentissage faiblement supervisé pour l’extraction automatique de paraphrases à partir du Web. À partir d’un seule exemple de paire (prédicat, arguments), un corpus est progressivement accumulé par sondage duWeb. Les phases de sondage alternent avec des phases de filtrage, durant lesquelles les paraphrases les moins plausibles sont éliminées à l’aide d’une procédure de clustering non supervisée. Ce mécanisme d’apprentissage s’appuie sur un système de Questions-Réponses existant et les paraphrases apprises seront utilisées pour en améliorer le rappel. Nous nous concentrons ici sur le mécanisme d’apprentissage de ce système et en présentons les premiers résultats.

pdf bib
La topologie comme interface entre syntaxe et prosodie : un système de génération appliqué au grec moderne
Kim Gerdes | Hi-Yon Yoo

Dans cet article, nous développons les modules syntaxique et topologique du modèle Sens- Texte et nous montrons l’utilité de la topologie comme représentation intermédiaire entre les représentations syntaxique et phonologique. Le modèle est implémenté dans un générateur et nous présentons la grammaire du grec moderne dans cette approche.

pdf bib
Contextual Grammars and Dependency Trees
Radu Gramatovici | Carlos Martín-Vide

A new variant of structured contextual grammar, which generates dependency trees, is introduced. The new generative model, called dependency contextual grammar, improves both the strong and weak generative power of contextual grammars, while being a potential candidate for the mathematical description of dependency-based syntactic models.

pdf bib
Entre syntaxe et sémantique : Normalisation de la sortie de l’analyse syntaxique en vue de l’amélioration de l’extraction d’information à partir de textes
Caroline Hagège | Claude Roux

Cet article présente la normalisation de la sortie d’un analyseur robuste de l’anglais. Nous montrons quels sont les enrichissements que nous avons effectués afin de pouvoir obtenir à la sortie de notre analyseur des relations syntaxiques plus générales que celles que nous offrent habituellement les analyseurs robustes existants. Pour cela nous utilisons non seulement des propriétés syntaxiques, mais nous faisons appel aussi à de l’information de morphologie dérivationnelle. Cette tâche de normalisation est menée à bien grâce à notre analyseur XIP qui intègre tous les traitements allant du texte brut tout venant au texte normalisé. Nous pensons que cette normalisation nous permettra de mener avec plus de succès des tâches d’extraction d’information ou de détection de similarité entre documents.

pdf bib
L’identification des structures discursives engendrées par les cadres organisationnels
Agata Jackiewicz | Jean-Luc Minel

Cet article présente tout d’abord une analyse linguistique des cadres organisationnels et son implémentation informatique. Puis à partir de ce travail, une modélisation généralisable à l’ensemble des cadres de discours est proposée. Enfin, nous discutons du concept d’indicateur proposé dans le cadre théorique de l’exploration contextuelle.

pdf bib
Vers la compréhension automatique de la parole : extraction de concepts par réseaux bayésiens
Salma Jamoussi | Kamel Smaïli | Jean-Paul Haton

La compréhension automatique de la parole peut être considérée comme un problème d’association entre deux langages différents. En entrée, la requête exprimée en langage naturel et en sortie, juste avant l’étape d’interprétation, la même requête exprimée en terme de concepts. Un concept représente un sens bien déterminé. Il est défini par un ensemble de mots partageant les mêmes propriétés sémantiques. Dans cet article, nous proposons une méthode à base de réseau bayésien pour l’extraction automatique des concepts ainsi que trois approches différentes pour la représentation vectorielle des mots. Ces représentations aident un réseau bayésien à regrouper les mots, construisant ainsi la liste adéquate des concepts à partir d’un corpus d’apprentissage. Nous conclurons cet article par la description d’une étape de post-traitement au cours de laquelle, nous étiquetons nos requêtes et nous générons les commandes SQL appropriées validant ainsi, notre approche de compréhension.

pdf bib
Les signes grammaticaux dans l’interface sémantique-syntaxe d’une grammaire d’unification
Sylvain Kahane

Cet article présente une grammaire d’unification dans laquelle les morphèmes grammaticaux sont traités similairement aux morphèmes lexicaux!: les deux types de morphèmes sont traités comme des signes à part entière et sont décris par des structures élémentaires qui peuvent s’unifier directement les unes aux autres (ce qui en fait une grammaire de dépendance). Nous illustrerons notre propos par un fragment de l’interface sémantique-syntaxe du français pour le verbe et l’adjectif!: voix, modes, temps, impersonnel et tough-movement.

pdf bib
Une caractérisation de la pertinence pour les actions de référence
Frédéric Landragin

Que ce soit pour la compréhension ou pour la génération d’expressions référentielles, la Théorie de la Pertinence propose un critère cognitif permettant de comparer les pertinences de plusieurs expressions dans un contexte linguistique. Nous voulons ici aller plus loin dans cette voie en proposant une caractérisation précise de ce critère, ainsi que des pistes pour sa quantification. Nous étendons l’analyse à la communication multimodale, et nous montrons comment la perception visuelle, le langage et le geste ostensif interagissent dans la production d’effets contextuels. Nous nous attachons à décrire l’effort de traitement d’une expression multimodale à l’aide de traits. Nous montrons alors comment des comparaisons entre ces traits permettent d’exploiter efficacement le critère de pertinence en communication homme-machine. Nous soulevons quelques points faibles de notre proposition et nous en tirons des perspectives pour une formalisation de la pertinence.

pdf bib
De la traduction probabiliste aux mémoires de traduction (ou l’inverse)
Philippe Langlais | Michel Simard

En dépit des travaux réalisés cette dernière décennie dans le cadre général de la traduction probabiliste, nous sommes toujours bien loin du jour où un engin de traduction automatique (probabiliste ou pas) sera capable de répondre pleinement aux besoins d’un traducteur professionnel. Dans une étude récente (Langlais, 2002), nous avons montré comment un engin de traduction probabiliste pouvait bénéficier de ressources terminologiques extérieures. Dans cette étude, nous montrons que les techniques de traduction probabiliste peuvent être utilisées pour extraire des informations sous-phrastiques d’une mémoire de traduction. Ces informations peuvent à leur tour s’avérer utiles à un engin de traduction probabiliste. Nous rapportons des résultats sur un corpus de test de taille importante en utilisant la mémoire de traduction d’un concordancier bilingue commercial.

pdf bib
Une analyse des emplois du démonstratif en corpus
Hélène Manuélian

Cet article propose une nouvelle classification des utilisations des démonstratifs, une mise en oeuvre de cette classification dans une analyse de corpus et présente les resultats obtenus au terme de cette analyse. La classification proposée est basée sur celles existant dans la littérature et étendues pour permettre la génération de groupes nominaux démonstratifs. L’analyse de corpus montre en particulier que la nature “reclassifiante” du démonstratif lui permet d’assumer deux fonctions (une fonction anaphorique et une fonction de support pour de l’information nouvelle) et qu’il existe des moyens variés de réaliser ces fonctions.

pdf bib
MULTI-ANALYSE vers une analyse syntaxique plus fiable
Laura Monceaux | Anne Vilnat

Dans cet article, nous proposons de montrer que la combinaison de plusieurs analyses syntaxiques permet d’extraire Panalyse la plus fiable pour une phrase donnée. De plus, chaque information syntaxique sera affectée d’un score de confiance déterminé selon le nombre d’analyseurs syntaxiques la confirmant. Nous verrons que cette approche implique l’étude des différents analyseurs syntaxiques existants ainsi que leur évaluation.

pdf bib
Apprentissage discriminant pour les Grammaires à Substitution d’Arbres
Antoine Rozenknop | Jean-Cédric Chappelier | Martin Rajman

Les grammaires stochastiques standards utilisent des modèles probabilistes de nature générative, fondés sur des probabilités de récriture conditionnées par le symbole récrit. Les expériences montrent qu’elles tendent ainsi par nature à pénaliser les dérivations les plus longues pour une mˆeme entrée, ce qui n’est pas forcément un comportement souhaitable, ni en analyse syntaxique, ni en reconnaissance de la parole. Dans cet article, nous proposons une approche probabiliste non-générative du modèle STSG (grammaire stochastique à substitution d’arbres), selon laquelle les probabilités sont conditionnées par les feuilles des arbres syntaxiques plutˆot que par leur racine, et qui par nature fait appel à un apprentissage discriminant. Plusieurs expériences sur ce modèle sont présentées.

pdf bib
Amélioration de liens entre acceptions par fonctions lexicales vectorielles symétriques
Didier Schwab | Mathieu Lafourcade | Violaine Prince

Dans le cadre du projet Papillon qui vise à la construction de bases lexicales multilingues par acceptions, nous avons défini des stratégies pour peupler un dictionnaire pivot de liens interlingues à partir d’une base vectorielle monolingue. Il peut y avoir un nombre important de sens par entrée et donc l’identification des acceptions correspondantes peut être erronée. Nous améliorons l’intégrité de la base d’acception grâce à des agents experts dans les fonctions lexicales comme la synonymie, l’antonymie, l’hypéronymie ou l’holonymie. Ces agents sont capable de calculer la pertinence d’une relation sémantique entre deux acceptions par les diverses informations lexicales récoltées et les vecteurs conceptuels. Si une certaine pertinence est au-dessus d’un seuil, ils créent un lien sémantique qui peut être utilisé par d’autres agents chargés par exemple de la désambiguïsation ou du transfert lexical. Les agents vérifiant l’intégrité de la base cherchent les incohérences de la base et en avertissent les lexicographes le cas échéant.

pdf bib
French Amalgam: A machine-learned sentence realization system
Martine Smets | Michael Gamon | Simon Corston-Oliver | Eric Ringger

This paper presents the French implementation of Amalgam, a machine-learned sentence realization system. It presents in some detail two of the machine-learned models employed in Amalgam and shows how linguistic intuition and knowledge can be combined with statistical techniques to improve the performance of the models.

pdf bib
Une grammaire formelle du créole martiniquais pour la génération automatique
Pascal Vaillant

Nous présenterons dans cette communication les premiers travaux de modélisation informatique d’une grammaire de la langue créole martiniquaise, en nous inspirant des descriptions fonctionnelles de Damoiseau (1984) ainsi que du manuel de Pinalie & Bernabé (1999). Prenant appui sur des travaux antérieurs en génération de texte (Vaillant, 1997), nous utilisons un formalisme de grammaires d’unification, les grammaires d’adjonction d’arbres (TAG d’après l’acronyme anglais), ainsi qu’une modélisation de catégories lexicales fonctionnelles à base syntaxico-sémantique, pour mettre en oeuvre une grammaire du créole martiniquais utilisable dans une maquette de système de génération automatique. L’un des intérêts principaux de ce système pourrait être son utilisation comme logiciel outil pour l’aide à l’apprentissage du créole en tant que langue seconde.

pdf bib
Cartographie lexicale pour la recherche d”information
Jean Véronis

Nous décrivons un algorithme, HyperLex, de détermination automatique des différents usages d’un mot dans une base textuelle sans utilisation d’un dictionnaire. Cet algorithme basé sur la détection des composantes de forte densité du graphe des cooccurrences de mots permet, contrairement aux méthodes précédemment proposées (vecteurs de mots), d’isoler des usages très peu fréquents. Il est associé à une technique de représentation graphique permettant à l’utilisateur de naviguer de façon visuelle à travers le lexique et d’explorer les différentes thématiques correspondant aux usages discriminés.

pdf bib
Application d’algorithmes de classification automatique pour la détection des contenus racistes sur l’Internet
Romain Vinot | Natalia Grabar | Mathieu Valette

Le filtrage de contenus illicites sur Internet est une problématique difficile qui est actuellement résolue par des approches à base de listes noires et de mots-clés. Les systèmes de classification textuelle par apprentissage automatique nécessitant peu d’interventions humaines, elles peuvent avantageusement remplacer ou compléter les méthodes précédentes pour faciliter les mises à jour. Ces techniques, traditionnellement utilisées avec des catégories définies par leur sujet (économie ou sport par exemple), sont fondées sur la présence ou l’absence de mots. Nous présentons une évaluation de ces techniques pour le filtrage de contenus racistes. Contrairement aux cas traditionnels, les documents ne doivent pas être catégorisés suivant leur sujet mais suivant le point de vue énoncé (raciste ou antiraciste). Nos résultats montrent que les classifieurs, essentiellement lexicaux, sont néanmoins bien adaptées : plus de 90% des documents sont correctement classés, voir même 99% si l’on accepte une classe de rejet (avec 20% d’exemples non classés).

pdf bib
Apprentissage de relations morphologiques en corpus
Pierre Zweigenbaum | Fadila Hadouche | Natalia Grabar

Nous proposons une méthode pour apprendre des relations morphologiques dérivationnelles en corpus. Elle se fonde sur la cooccurrence en corpus de mots formellement proches et un filtrage complémentaire sur la forme des mots dérivés. Elle est mise en oeuvre et expérimentée sur un corpus médical. Les relations obtenues avant filtrage ont une précision moyenne de 75,6 % au 5000è rang (fenêtre de 150 mots). L’examen détaillé des dérivés adjectivaux d’un échantillon de 633 noms du champ de l’anatomie montre une bonne précision de 85–91 % et un rappel modéré de 32–34 %. Nous discutons ces résultats et proposons des pistes pour les compléter.

up

bib (full) Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

pdf bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Béatrice Daille | Emmanuel Morin

pdf bib
Generation of natural responses through syntactic patterns
Glenda B. Anaya | Leila Kosseim

The goal of Question-Answering (QA) systems is to find short and factual answers to opendomain questions by searching a large collection of documents. The subject of this research is to formulate complete and natural answer-sentences to questions, given the short answer. The answer-sentences are meant to be self-sufficient; that is, they should contain enough context to be understood without needing the original question. Generating such sentences is important in question-answering as they can be used to enhance existing QA systems to provide answers to the user in a more natural way and to provide a pattern to actually extract the answer from the document collection.

pdf bib
Une métagrammaire pour les noms prédicatifs du français
Sébastien Barrier | Nicolas Barrier

La grammaire FTAG du français a vu ces dernières années ses données s’accroître très fortement. D’abord écrits manuellement, les arbres qui la composent, ont ensuite été générés semi-automatiquement grâce à une Métagrammaire, développée tout spécialement. Après la description des verbes en 1999, puis celle des adjectifs en 2001-2002, c’est maintenant au tour des verbes supports et des noms prédicatifs de venir enrichir les descriptions syntaxiques de la grammaire. Après un rappel linguistique et technique des notions de verbe support et de métagrammaire, cet article présente les choix qui ont été entrepris en vue de la description de ces nouvelles données.

pdf bib
Remarques et perspectives sur les langages de prégroupe d’ordre 1/2
Denis Béchet | Annie Foret

Cet article traite de l’acquisition automatique des grammaires de Lambek, utilisées pour la modélisation syntaxique des langues. Récemment, des algorithmes ont été proposés dans le modèle d’apprentissage de Gold, pour certaines classes de grammaires catégorielles. En revenche, les grammaires de Lambek rigides ou k-valuées ne sont pas apprenables à partir des chaînes. Nous nous intéressons ici au cas des grammaires de prégroupe. Nous montrons que la classe des grammaires de prégroupe n’est pas apprenable à partir des chaînes, même si on limite fortement l’ordre des types (ordre 1/2) ; notre preuve revient à construire un point limite pour cette classe.

pdf bib
Indexation discursive pour la navigation intradocumentaire : cadres temporels et spatiaux dans l’information géographique
Frédérik Bilhaut | Lydia-Mai Ho-Dac | Andrée Borillo | Thierry Charnois | Patrice Enjalbert | Anne Le Draoulec | Yann Mathet | Hélène Miguet | Marie-Paule Péry-Woodley | Laure Sarda

Cet article concerne la structuration automatique de documents par des méthodes linguistiques. De telles procédures sont rendues nécessaires par les nouvelles tâches de recherche d’information intradocumentaires (systèmes de questions-réponses, navigation sélective dans des documents...). Nous développons une méthode exploitant la théorie de l’encadrement du discours de Charolles, avec une application visée en recherche d’information dans les documents géographiques - d’où l’intérêt tout particulier porté aux cadres spatiaux et temporels. Nous décrivons une implémentation de la méthode de délimitation de ces cadres et son exploitation pour une tâche d’indexation intratextuelle croisant les critères spatiaux et temporels avec des critères thématiques.

pdf bib
Vers une théorie cognitive de la langue basée sur les contraintes
Philippe Blache

Cet article fournit des éléments d’explication pour la description des relations entre les différents domaines de l’analyse linguistique. Il propose une architecture générale en vue d’une théorie formée de plusieurs niveaux : d’un côté les grammaires de chacun des domaines et de l’autre des relations spécifiant les interactions entre ces domaines. Dans cette approche, chacun des domaines est porteur d’une partie de l’information, celle-ci résultant également de l’interaction entre les domaines.

pdf bib
Identification automatique des valeurs temporelles dans les textes
Marie Chagnoux | Slim Ben Hazez | Jean-Pierre Desclés

Cet article présente une application qui associe un certain nombre de valeurs sémantiques à des segments textuels en vue de proposer un traitement automatique de la temporalité dans les textes. Il s’agit d’automatiser une analyse sémantique de surface à l’aide de règles heuristiques d’exploration contextuelle et d’une base organisée de marqueurs linguistiques.

pdf bib
Structuration automatique de preuves mathématiques : de la logique à la rhétorique
Adil El Ghali | Laurent Roussarie

Nous présentons dans ses grandes lignes un modèle de structuration de documents pour la génération automatique de preuves mathématiques. Le modèle prend en entrée des sorties d’un prouveur automatique et vise à produire des textes dont le style s’approche le plus possible des démonstrations rédigées par des humains. Cela implique la mise au point d’une stratégie de planification de document capable de s’écarter de la structure purement logique de la preuve. La solution que nous proposons consiste à intégrer de manière simple des informations de type intentionnel afin d’enrichir la structure rhétorique finale du texte.

pdf bib
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes
Chantal Enguehard

La reconnaissance de termes dans les textes intervient dans de nombreux domaines du Traitement Automatique des Langues Naturelles, qu’il s’agisse d’indexation automatique, de traduction, ou d’extraction de connaissances. Nous présentons une méthodologie d’évaluation de Systèmes de Reconnaissance de Termes (SRT) qui vise à minimiser le temps d’expertise des spécialistes en faisant coopérer des SRT. La méthodologie est mise en oeuvre sur des textes en anglais dans le domaine de la chimie des métaux et à l’aide de deux SRT : FASTR et SYRETE. Le banc de test construit selon cette méthodologie a permis de valider les SRT et d’évaluer leurs performances en termes de rappel et de précision.

pdf bib
Filtrage thématique d’un réseau de collocations
Olivier Ferret

Les réseaux lexicaux de type WordNet présentent une absence de relations de nature thématique, relations pourtant très utiles dans des tâches telles que le résumé automatique ou l’extraction d’information. Dans cet article, nous proposons une méthode visant à construire automatiquement à partir d’un large corpus un réseau lexical dont les relations sont préférentiellement thématiques. En l’absence d’utilisation de ressources de type dictionnaire, cette méthode se fonde sur un principe d’auto-amorçage : un réseau de collocations est d’abord construit à partir d’un corpus puis filtré sur la base des mots du corpus que le réseau initial a permis de sélectionner. Nous montrons au travers d’une évaluation portant sur la segmentation thématique que le réseau final, bien que de taille bien inférieure au réseau initial, permet d’obtenir les mêmes performances que celui-ci pour cette tâche.

pdf bib
Une méthode non supervisée d’apprentissage sur le Web pour la résolution d’ambiguïtés structurelles liées au rattachement prépositionnel
Núria Gala Pavia

Dans cet article, nous proposons une méthode non supervisée d’apprentissage qui permet d’améliorer la désambiguïsation du rattachement prépositionnel dans le cadre d’un analyseur robuste à base de règles pour le français. Les rattachements ambigus d’une première analyse sont transformés en requêtes sur leWeb dans le but de créer un grand corpus qui sera analysé et d’où seront extraites automatiquement des informations lexicales et statistiques sur les rattachements. Ces informations seront ensuite utilisées dans une deuxième analyse pour lever les ambiguïtés des rattachements. L’avantage d’une telle méthode est la prise en compte de cooccurrences syntaxiques et non pas des cooccurrences purement textuelles. En effet, les mesures statistiques (poids) sont associées à des mots apparaissant initialement dans une même relation de dépendance, c’est-à-dire, des attachements produits par le parseur lors d’une première analyse.

pdf bib
Bases de connaissances pour asseoir la crédibilité des réponses d’un système de Q/R
Laurent Gillard | Patrice Bellot | Marc El-Bèze

Cet article présente un prototype de Question/Réponse (Q/R) impliquant un ensemble de bases de connaissances (BC) dont l’objectif est d’apporter un crédit supplémentaire aux réponses candidates trouvées. Ces BC et leur influence sur la stratégie d’ordonnancement mise en œuvre sont décrites dans le cadre de la participation du système à la campagne Q/R de TREC-2002.

pdf bib
Un logiciel pour la mise au point de grammaires pour le filtrage d’information en arabe (cas de l’information citationnelle)
André Jaccarini | Mourad Ghassan | Christian Gaubert | Brahim Djioua

Nous présentons dans ce travail un logiciel de mise au point de grammaires pour le traitement morpho-syntaxique de l’arabe et l’établissement de grammaires pour le filtrage et l’extraction d’information en arabe. Ce logiciel est fondé sur le principe des automates. L’analyse morpho-syntaxique de l’arabe est réalisé sans le recours au lexique.

pdf bib
Using decision trees to learn lexical information in a linguistics-based NLP system
Marisa Jiménez | Martine Pettenaro

This paper describes the use of decision trees to learn lexical information for the enrichment of our natural language processing (NLP) system. Our approach to lexical learning differs from other approaches in the field in that our machine learning techniques exploit a deep knowledge understanding system. After the introduction we present the overall architecture of our lexical learning module. In the following sections we present a showcase of lexical learning using decision trees: we learn verbs that take a human subject in Spanish and French.

pdf bib
MDA-XML : une expérience de rédaction contrôlée multilingue basée sur XML
Guy Lapalme | Caroline Brun | Marc Dymetman

Nous décrivons dans cet article l’implantation d’un système de rédaction contrôlée multilingue dans un environnement XML. Avec ce système, un auteur rédige interactivement un texte se conformant à des règles de bonne formation aux niveaux du contenu sémantique et de la réalisation linguistique décrites par un schéma XML. Nous discutons les avantages de cette approche ainsi que les difficultés rencontrées lors du développement de ce système. Nous concluons avec un exemple d’application à une classe de documents pharmaceutiques.

pdf bib
Apport d’un modèle de langage statistique pour la reconnaissance de l’écriture manuscrite en ligne
Freddy Perraud | Emmanuel Morin | Christian Viard-Gaudin | Pierre-Michel Lallican

Dans ce travail, nous étudions l’apport d’un modèle de langage pour améliorer les performances des systèmes de reconnaissance de l’écriture manuscrite en-ligne. Pour cela, nous avons exploré des modèles basés sur des approches statistiques construits par apprentissage sur des corpus écrits. Deux types de modèles ont été étudiés : les modèles n-grammes et ceux de type n-classes. En vue de l’intégration dans un système de faible capacité (engin nomade), un modèle n-classe combinant critères syntaxiques et contextuels a été défini, il a permis d’obtenir des résultats surpassant ceux donnés avec un modèle beaucoup plus lourd de type n-gramme. Les résultats présentés ici montrent qu’il est possible de prendre en compte les spécificités d’un langage en vue de reconnaître l’écriture manuscrite avec des modèles de taille tout à fait raisonnable.

pdf bib
Prototypage rapide et évaluation de modèles de dialogue finalisés
Martin Rajman | Andréa Rajman | Florian Seydoux | Alex Trutnev

L’objectif de cette contribution est de présenter l’intégration de la notion d’évaluation dans la méthodologie de prototypage rapide de modèles de dialogue développée et mise en oeuvre dans le cadre du projet InfoVox. L’idée centrale de cette méthodologie est de dériver un modèle de dialogue opérationnel directement à partir du modèle de la tâche à laquelle il est associé. L’intégration systématique de différents aspects de l’évaluation dans le processus de prototypage est alors utile afin d’identifier, dès la phase de conception, les qualités et défauts de l’interface. Toutes les conclusions présentées seront illustrées par des résultats concrets obtenus au cours d’expériences réalisées dans le cadre du projet InfoVox.

pdf bib
Text Tokenization for Knowledge-free Automatic Extraction of Lexical Similarities
Aristomenis Thanopoulos | Nikos Fakotakis | George Kokkinakis

Previous studies on automatic extraction of lexical similarities have considered as semantic unit of text the word. However, the theory of contextual lexical semantics implies that larger segments of text, namely non-compositional multiwords, are more appropriate for this role. We experimentally tested the applicability of this notion applying automatic collocation extraction to identify and merge such multiwords prior to the similarity estimation process. Employing an automatic WordNet-based comparative evaluation scheme along with a manual evaluation procedure, we ascertain improvement of the extracted similarity relations.

pdf bib
Le traitement automatique de la langue contre les erreurs judiciaires : une méthodologie d’analyse systématique des textes d’un dossier d’instruction
Yannick Toussaint

Cet article présente une méthode d’analyse systématique et scientifique des documents constituant un dossier d’instruction. L’objectif de cette approche est de pouvoir donner au juge d’instruction de nouveaux moyens pour évaluer la cohérence, les incohérences, la stabilité ou les variations dans les témoignages. Cela doit lui permettre de définir des pistes pour mener de nouvelles investigations. Nous décrivons les travaux que nous avons réalisés sur un dossier réel puis nous proposons une méthode d’analyse des résultats.

pdf bib
Le contexte au service de la correction des graphies fautives arabes
Chiraz Ben Othmane Zribi | Mohamed Ben Ahmed

Les mots arabes sont lexicalement beaucoup plus proches les uns des autres que les mots français et anglais. Cette proximité a pour effet un grand nombre de propositions à la correction d’une forme erronée arabe. Nous proposons dans cet article une méthode qui prend en considération le contexte de l’erreur pour éliminer certaines propositions données par le correcteur. Le contexte de l’erreur sera dans un premier temps les mots voisinant l’erreur et s’étendra jusqu’à l’ensemble des mots du texte contenant l’erreur. Ayant été testée sur un corpus textuel contenant des erreurs réelles, la méthode que nous proposons aura permis de réduire le nombre moyen de propositions d’environ 75% (de 16,8 à 3,98 propositions en moyenne).

up

bib (full) Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels

pdf bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels
Béatrice Daille | Emmanuel Morin

pdf bib
Introduction à la traduction guidée par l’exemple (Traduction par analogie)
Michael Carl

Le nombre d’approches en traduction automatique s’est multiplié dans les dernières années. Il existe entre autres la traduction par règles, la traduction statistique et la traduction guidée par l’exemple. Dans cet article je decris les approches principales en traduction automatique. Je distingue les approches qui se basent sur des règles obtenues par l’inspection des approches qui se basent sur des exemples de traduction. La traduction guidée par l’exemple se caractérise par la phrase comme unité de traduction idéale. Une nouvelle traduction est génerée par analogie : seulement les parties qui changent par rapport à un ensemble de traductions connues sont adaptées, modifiées ou substituées. Je présente quelques techniques qui ont été utilisées pour ce faire. Je discuterai un système spécifique, EDGAR, plus en detail. Je démontrerai comment des textes traduits alignés peuvent être preparés en termes de compilation pour extraire des unités de traduction sous-phrastiques. Je présente des résultats en traduction Anglais -> Français produits avec le système EDGAR en les comparant avec ceux d’un système statistique.

pdf bib
Construction d’ontologies à partir de textes
Didier Bourigault | Nathalie Aussenac-Gilles

Cet article constitue le support d’un cours présenté lors de la conférence TALN 2003. Il défend la place du Traitement Automatique des Langues comme discipline clé pour le développement de ressources termino-ontologiques à partir de textes. Les contraintes et enjeux de ce processus sont identifiés, en soulignant l’importance de considérer cette tâche comme un processus supervisé par un analyste. Sont présentés un certain nombre d’outils logiciels et méthodologiques venant de plusieurs disciplines comme le TAL et l’ingénierie des connaissances qui peuvent aider l’analyste dans sa tâche. Divers retours d’expérience sont présentés.

up

bib (full) Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

pdf bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Emmanuel Morin

pdf bib
Analyse syntaxique de l’Arabe: Le système MASPAR
Chafik Aloulou

De nombreux systèmes de Traitement Automatique des Langues (TAL) utilisent une architecture séquentielle basée sur la transmission, à la fin de chaque phase d’analyse, des résultats trouvés à la phase d’analyse suivante. Ces types de systèmes séquentiels posent plusieurs problèmes (i.e. explosion combinatoire des solutions, lourdeur d’analyse, etc.). Pour remédier à ces problèmes, plusieurs solutions de remplacement ont vu le jour, nous pouvons citer par exemple, l’utilisation des approches multi-agent que nous avons adopté pour faire l’analyse syntaxique de textes Arabes, et que nous présentons dans cet article.

pdf bib
Fusionner pour mieux analyser: quelques idées et une première expérience
Francis Brunet-Manquat

L’objectif de cet article est de présenter nos travaux sur l’analyse d’un énoncé vers une structure de dépendance. Cette structure décrit les relations entre mots, des relations syntaxiques mais également des relations sémantiques de surface de l’énoncé de départ dans un certain contexte. L’idée est de créer une plateforme d’analyse capable d’intégrer des analyseurs linguistiques existants (syntaxiques ou de dépendance) et de fusionner leurs résultats dans le but d’obtenir une analyse de dépendance pour des énoncés quelconques.

pdf bib
Extraction de segments thématiques pour la construction de résumé multi-document orienté par un profil utilisateur
Sana-Leila Chaar

Dans cet article, nous présentons une méthode qui vise à donner à un utilisateur la possibilité de parcourir rapidement un ensemble de documents par le biais d’un profil utilisateur. Un profil est un ensemble de termes structuré en sous-ensembles thématiquement homogènes. L’analyse des documents se fonde pour sa part sur l’extraction des passages les plus étroitement en relation avec ce profil. Cette analyse permet en particulier d’étendre le vocabulaire définissant un profil en fonction du document traité en sélectionnant les termes de ce dernier les plus étroitement liés aux termes du profil. Cette capacité ouvre ainsi la voie à une plus grande finesse du filtrage en permettant la sélection d’extraits de documents ayant un lien plus ténu avec les profils mais davantage susceptibles d’apporter des informations nouvelles et donc intéressantes. La production du résumé résulte de l’appariement entre les segments délimités lors de l’analyse des documents et les thèmes du profil.

pdf bib
Structure communicative du discours : étude pour la génération automatique de textes
Laurence Delort

Dans cet article, nous montrons que la cohérence d’un discours dépend de la relation entre la structure communicative des phrases et la structure du discours. Du point de vue de la synthèse, la visée communicative contrôle la structure du discours, et la structure du discours contraint le choix des structures communicatives phrastiques : nous proposons de reproduire ce processus dans un système de génération de textes. Nous montrons de quelle manière la structure communicative intervient lors de la phase de structuration de document pour permettre la génération de discours cohérents et répondant à des visées communicatives particulières.

pdf bib
Procédures d’apprentissage endogène doublées de ressources exogènes : résolution en corpus d’une ambiguïté sur «de»
Cécile Frérot

Dans cette étude, nous nous intéressons à l’apport de ressources exogènes dans un analyseur syntaxique de corpus basé sur des procédures d’apprentissage endogène. Nous menons une expérience en corpus sur un cas d’ambiguïté catégorielle du français (forme de en position postverbale, article ou préposition). Après avoir présenté et évalué la stratégie endogène, nous en analysons les limites. Nous discutons ensuite la perspective d’une approche mixte combinant des informations acquises de manière endogène à des informations exogènes (données de sous-catégorisation verbale sur la préposition de). Nous montrons alors comment un apport maximal de ressources exogènes améliore les performances de l’analyseur (+8%, +15% sur les deux corpus évalués). Nous présentons les premiers résultats d’une approche mixte avant de conclure sur les orientations futures du travail.

pdf bib
Polysémie verbale et construction syntaxique : étude sur le verbe jouer
Guillaume Jacquet

Dans l’analyse sémantique de textes, un des obstacles au TAL est la polysémie des unités linguistiques. Par exemple, le sens du verbe jouer peut varier en fonction du contexte : Il joue de la trompette (pratiquer) ; Il joue avec son fils (s’amuser). Une des approches pour traiter ces ambiguïtés de sens, est le modèle de la construction dynamique du sens proposé par B. Victorri et C. Fuchs (1996). Dans ce modèle, on associe à chaque unité polysémique un espace sémantique, et le sens de l’unité dans un énoncé donné est le résultat d’une interaction dynamique avec les autres unités présentes dans l’énoncé. Nous voulons montrer ici que les constructions verbales sont des éléments du co-texte qui contribuent, au même titre que le co-texte lexical, au processus dynamique de construction du sens du verbe. L’objectif est alors de montrer que les constructions verbales sont porteuses de sens intrinsèque (Goldberg, 1995) et qu’elles permettent dans notre modèle de contraindre automatiquement le sens d’un verbe.

pdf bib
Vers une Approche Fonctionnelle de la Résolution de la Référence dans le Dialogue Finalisé
Guillaume Pitel

Dans cet article, nous montrons l’insuffisance du pouvoir d’expression des approches par prédicats pour la résolution de la référence en extension dans un cadre générique de dialogue homme-machine. Cette insuffisance oblige pour l’instant les concepteurs de tels systèmes de dialogue à concevoir des heuristiques ad hoc impossibles à intégrer dans un cadre de description unifié. Nous montrons que la résolution des expressions référentielles nécessite la prise en compte du contexte même pour les termes portant sur des caractéristiques intrinsèques aux éléments. Nous proposons alors un formalisme pour représenter la sémantique des extracteurs référentiels intrinsèques. Ce formalisme repose sur trois fonctions, la première permet de calculer le rapport de similarité de deux éléments en fonction d’une certaine dimension et dans un certain contexte, les deux autres permettent de partitionner un domaine de référence trié par l’utilisation de la première fonction.

pdf bib
Société d’agents apprenants et sémantique lexicale : comment construire des vecteurs conceptuels à l’aide de la double boucle
Didier Schwab

Dans le cadre de la représentation du sens en TALN, nous développons actuellement un système d’analyse des aspects thématiques des textes et de désambiguïsation lexicale basée sur les vecteurs conceptuels. Ces vecteurs visent à représenter un ensemble d’idées associées à tout segment textuel. À partir de ce modèle, nous avons posé des hypothèses sur la construction des vecteurs. Dans cet article, nous montrons comment ces hypothèses, ainsi que des considérations techniques comme la possibilité de distribuer les tâches à effectuer ou la modularité, nous ont amenées à adopter une architecture multi-agents. Chaque agent possède un certain nombre de compétences, une mémoire qui lui est propre et peut interragir avec son environnement (les autres agents). Pour finir, nous présentons les agents déjà implémentés et un exemple de leur collaboration.

up

bib (full) Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)

pdf bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
Emmanuel Morin

pdf bib
Un “langage pivot” pour articuler description et formalisation : l’exemple des verbes introducteurs de “que-phrases”
Christophe Benzitoun

Nous présentons dans cet article une réflexion en vue de la modélisation d’une partie du patrimoine descriptif du français finalement peu utilisé en TALN. Pour ce faire, nous utilisons le concept de langage “pivot” qui permet d’articuler la description et la présentation formalisée.

pdf bib
Un étiquetage morphologique pour une résolution des ambiguïtés morphologiques en anglais
Gaëlle Birocheau

Cet article expose la recherche effectuée dans le cadre de mon doctorat visant à élaborer un étiquetage morphologique de l’anglais et à désambiguïser automatiquement les ambiguïtés dues à la morphologie dans le cadre du projet LABELGRAM [9]. Nous montrons qu’il est très pertinent et efficace de travailler conjointement sur l’étiquetage et la désambiguïsation. Nous décrivons de manière précise notre contribution au système qui a consisté à mettre en place la partie anglaise. Pour ce faire, nous avons établi un dictionnaire en intention, nous avons évalué quantitativement le phénomène d’ambiguïté morphologique et établi la validité de la méthode de désambiguïsation par règles contextuelles pour l’anglais.

pdf bib
Traitement de la morphologie du finnois par transducteurs à nombre fini d’états
Marie Calberg

Cette étude présente un modèle pour le traitement de la morphologie du finnois. Ce modèle est fondé sur des transducteurs à nombre fini d’états. L’approche utilise une façon originale d’organiser les données et de générer dynamiquement une structure sémantique à partir d’une analyse morphologique. L’approche est linguistiquement validée par une étude des suffixes de dérivation verbale en finnois.

pdf bib
Un outil de représentation et de développement des Grammaires de Propriétés
Marie-Laure Guénot | Tristan VanRullen

Nous présentons dans cet article un outil graphique de développement de grammaire, basé sur le formalisme des Grammaires de Propriétés. Nous y exprimons les raisons pour lesquelles l’association d’une représentation complète et ergonomique, et d’un modèle formel flexible et homogène fournit un avantage considérable pour l’intégration des informations issues de la linguistique descriptive.

pdf bib
Annotation sémantique hors-source à l’aide de vecteurs conceptuels
Fabien Jalabert

Dans le cadre de la recherche en sémantique lexicale, nous utilisons le modèle des vecteurs conceptuels pour représenter les sens de termes. La base vectorielle est construite à partir de définitions provenant de diverses sources lexicales, ce qui permet statistiquement de tempérer les diverses incohérences locales. Pour désigner le sens obtenu après un regroupement des définitions, nous utilisons un identificateur qui entraîne certaines contraintes. En particulier, un “cluster” de définition est désigné par une référence vers différentes définitions de la multisource. D’autre part, le contrôle de la qualité d’une classification ou désambiguisation de sens impose de faire référence en permanence au lexique source. Nous proposons donc de nommer un sens à l’aide d’un autre terme du lexique. L’annotation est un outil léger et efficace qui est essentiellement une association d’idées que l’on peut extraire de toute base de connaissance linguistique. Les annotations obtenues peuvent finalement constituer une nouvelle source d’apprentissage pour la base de vecteurs conceptuels.

pdf bib
Un système de segmentation du chinois basé sur des triplets
Yiping Li

Un des problèmes rencontrés lors de l’analyse de textes en chinois est qu’il n’existe pas de séparateur entré lés mots dans cette langue. Le mot étant une unité linguistique fondamentale en traitement automatique dé la langue, il est nécessaire d’identifier les mots dans un texte chinois afin que des analysés de plus haut niveau puissent être réalisées. Le but de cet article est dé présenter un système d’idéntification dés mots basé sur un algorithme utilisant des triplets dé catégories grammaticales ét dés fréquences de mots. Cé système comprend deux dictionnaires : l’un dédié aux mots ét à léurs fréquences, l’autré aux triplets dés catégories correspondantes. Les tests qui ont été effectués révèlent que 98,5% dés phrases sont découpées correctement. Certaines erreurs sont dués à la taillé limitée du dictionnaire utilisé. Une réflexion sur la création de nouvelles catégories ét dés études proposant des règles grammaticales sont en cours de réalisation afin d’aug1nénter la performance du système.

pdf bib
Vers une architecture générique de système de dialogue oral homme-machine
Hoá Nguyen

Cet article présente une architecture générique de système de dialogue oral homme-machine. Premièrement, nous abordons quelques problèmes soulevés par la généricité des systèmes de dialogue homme-machine. Nous décrivons ensuite dans ce cadre quelques systèmes récents et typiques. Nous présentons finalement une architecture générique pour concevoir/construire des systèmes de dialogue oral homme-machine.

pdf bib
Sélection de critères pour le filtrage automatique de messages
Omar Nouali

La plupart des systèmes de filtrage du courrier électronique existants enregistrent des lacunes ou faiblesses sur l’efficacité du filtrage. Certains systèmes sont basés seulement sur le traitement de la partie structurée (un ensemble de règles sur l’entête du message), et d’autres sont basés sur un balayage superficiel de la partie texte du message (occurrence d’un ensemble de mots clés décrivant les intérêts de l’utilisateur). Cet article propose une double amélioration de ces systèmes. D’une part, nous proposons un ensemble de critères automatisables et susceptibles d’influer sur le processus de filtrage. Ces critères sont des indices qui portent généralement sur la structure et le contenu des messages. D’autre part, nous utilisons une méthode d’apprentissage automatique permettant au système d’apprendre à partir de données et de s’adapter à la nature des mails dans le temps. Dans cet article, nous nous intéressons à un type de messages bien particulier, qui continue à polluer nos boîtes emails de façon croissante : les messages indésirables, appelés spam. Nous présentons à la fin les résultats d’une expérience d’évaluation.