Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Béatrice Daille, Emmanuel Morin (Editors)


Anthology ID:
2003.jeptalnrecital-long
Month:
June
Year:
2003
Address:
Batz-sur-Mer, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
URL:
https://aclanthology.org/2003.jeptalnrecital-long/
DOI:
Bib Export formats:
BibTeX MODS XML EndNote

pdf bib
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Béatrice Daille | Emmanuel Morin

pdf bib
Quand le TAL robuste s’attaque au langage parlé : analyse incrémentale pour la compréhension de la parole spontanée
Jean-Yves Antoine | Jérôme Goulian | Jeanne Villaneau

Dans cet article, nous discutons de l’application au langage parlé des techniques d’analyse syntaxique robuste développées pour l’écrit. Nous présentons deux systèmes de compréhension de parole spontané en situation de dialogue homme-machine finalisé, dont les performances montrent la pertinence de ces méthodes pour atteindre une compréhension fine et robuste des énoncés oraux.

pdf bib
Etude des critères de désambiguïsation sémantique automatique : résultats sur les cooccurrences
Laurent Audibert

Nous présentons dans cet article une étude sur les critères de désambiguïsation sémantique automatique basés sur les cooccurrences. L’algorithme de désambiguïsation utilisé est du type liste de décision, il sélectionne une cooccurrence unique supposée véhiculer l’information la plus fiable dans le contexte ciblé. Cette étude porte sur 60 vocables répartis, de manière égale, en trois classes grammaticales (nom, adjectif et verbe) avec une granularité fine au niveau des sens. Nous commentons les résultats obtenus par chacun des critères évalués de manière indépendante et nous nous intéressons aux particularités qui différencient les trois classes grammaticales étudiées. Cette étude s’appuie sur un corpus français étiqueté sémantiquement dans le cadre du projet SyntSem.

pdf bib
Nouvelle approche de la sélection de vocabulaire pour la détection de thème
Armelle Brun | Kamel Smaïli | Jean-Paul Haton

En reconnaissance de la parole, un des moyens d’améliorer les performances des systèmes est de passer par l’adaptation des modèles de langage. Une étape cruciale de ce processus consiste à détecter le thème du document traité et à adapter ensuite le modèle de langage. Dans cet article, nous proposons une nouvelle approche de création des vocabulaires utilisés pour la détection de thème. Cette dernière est fondée sur le développement de vocabulaires spécifiques et caractéristiques des différents thèmes. Nous montrons que cette approche permet non seulement d’améliorer les performances des méthodes, mais exploite également des vocabulaires de taille réduite. De plus, elle permet d’améliorer de façon très significative les performances de méthodes de détection lorsqu’elles sont combinées.

pdf bib
Classification automatique de textes à partir de leur analyse syntaxico-sémantique
Jacques Chauché | Violaine Prince | Simon Jaillet | Maguelonne Teisseire

L’hypothèse soutenue dans cet article est que l’analyse de contenu, quand elle est réalisée par un analyseur syntaxique robuste avec calcul sémantique dans un modèle adéquat, est un outil de classification tout aussi performant que les méthodes statistiques. Pour étudier les possibilités de cette hypothèse en matière de classification, à l’aide de l’analyseur du Français, SYGMART, nous avons réalisé un projet en grandeur réelle avec une société qui propose des sélections d’articles en revue de presse. Cet article présente non seulement les résultats de cette étude (sur 4843 articles finalement sélectionnés), mais aussi cherche à montrer que l’analyse de contenu automatisée, quand elle est possible, est un moyen fiable de produire une catégorisation issue du sens (quand il est calculable), et pas simplement créée à partir d’une reconnaissance de “similarités”de surface.

pdf bib
Extraction de couples nom-verbe sémantiquement liés : une technique symbolique automatique
Vincent Claveau

Dans le modèle du Lexique génératif (Pustejovsky, 1995), certaines propriétés sémantiques des noms sont exprimées à l’aide de verbes. Les couples nom-verbe ainsi formés présentent un intérêt applicatif notamment en recherche d’information. Leur acquisition sur corpus constitue donc un enjeu, mais la découverte des patrons qui les définissent en contexte est également importante pour la compréhension même du modèle du Lexique génératif. Cet article présente une technique entièrement automatique permettant de répondre à ce double besoin d’extraction sur corpus de couples et de patrons morpho-syntaxiques et sémantiques. Elle combine pour ce faire deux approches d’acquisition— l’approche statistique et l’approche symbolique— en conservant les avantages propres à chacune d’entre elles : robustesse et automatisation des méthodes statistiques, qualité et expressivité des résultats des techniques symboliques.

pdf bib
Une plate-forme de conception et d’exploitation d’une grammaire d’arbres adjoints lexicalisés
Benoît Crabbé | Bertrand Gaiffe | Azim Roussanaly

Dans cet article, nous présentons un ensemble d’outils de conception et d’exploitation pour des grammaires d’arbres adjoints lexicalisés. Ces outils s’appuient sur une représentation XML des ressources (lexique et grammaire). Dans notre représentation, à chaque arbre de la grammaire est associé un hypertag décrivant les phénomènes linguistiques qu’il recouvre. De ce fait, la liaison avec le lexique se trouve plus compactée et devient plus aisée à maintenir. Enfin, un analyseur permet de valider les grammaires et les lexiques ainsi conçus aussi bien de façon interactive que différée sur des corpus.

pdf bib
Peut-on trouver la taille de contexte optimale en désambiguïsation sémantique?
Éric Crestan | Marc El-Bèze | Claude De Loupy

Dans la tâche de désambiguïsation sémantique, la détermination de la taille optimale de fenêtre de contexte à utiliser, a fait l’objet de plusieurs études. Dans cet article, nous proposons une approche à deux niveaux pour répondre à cette problématique de manière automatique. Trois systèmes concurrents à base d’arbres de classification sémantique sont, dans un premier temps, utilisés pour déterminer les trois sens les plus vraisemblables d’un mot. Ensuite, un système décisionnel tranche entre ces sens au regard d’un contexte plus étendu. Les améliorations constatées lors d’expériences menées sur les données de SENSEVAL-1 et vérifiées sur les données SENSEVAL-2 sont significatives.

pdf bib
Représentation sémantique sous-spécifiée pour les conjonctions de subordination
Laurence Danlos

Cet article concerne les phrases complexes avec deux conjonctions de subordination. Nous montrerons que de telles phrases peuvent s’interpréter de quatre façons différentes. Il s’agit donc de formes fortement ambiguës pour lesquelles il est opportun d’avoir recours à des représentations sémantiques sous-spécifiées, et c’est ce que nous proposerons.

pdf bib
Confronter des sources de connaissances différentes pour obtenir une réponse plus fiable
Gaël de Chalendar | Faïza El Kateb | Olivier Ferret | Brigitte Grau | Martine Hurault-Plantet | Laura Monceaux | Isabelle Robba | Anne Vilnat

La fiabilité des réponses qu’il propose, ou un moyen de l’estimer, est le meilleur atout d’un système de question-réponse. A cette fin, nous avons choisi d’effectuer des recherches dans des ensembles de documents différents et de privilégier des résultats qui sont trouvés dans ces différentes sources. Ainsi, le système QALC travaille à la fois sur une collection finie d’articles de journaux et sur le Web.

pdf bib
Apprentissage Automatique de Paraphrases pour l’Amélioration d’un Système de Questions-Réponses
Florence Duclaye | Olivier Collin | François Yvon

Dans cet article, nous présentons une méthodologie d’apprentissage faiblement supervisé pour l’extraction automatique de paraphrases à partir du Web. À partir d’un seule exemple de paire (prédicat, arguments), un corpus est progressivement accumulé par sondage duWeb. Les phases de sondage alternent avec des phases de filtrage, durant lesquelles les paraphrases les moins plausibles sont éliminées à l’aide d’une procédure de clustering non supervisée. Ce mécanisme d’apprentissage s’appuie sur un système de Questions-Réponses existant et les paraphrases apprises seront utilisées pour en améliorer le rappel. Nous nous concentrons ici sur le mécanisme d’apprentissage de ce système et en présentons les premiers résultats.

pdf bib
La topologie comme interface entre syntaxe et prosodie : un système de génération appliqué au grec moderne
Kim Gerdes | Hi-Yon Yoo

Dans cet article, nous développons les modules syntaxique et topologique du modèle Sens- Texte et nous montrons l’utilité de la topologie comme représentation intermédiaire entre les représentations syntaxique et phonologique. Le modèle est implémenté dans un générateur et nous présentons la grammaire du grec moderne dans cette approche.

pdf bib
Contextual Grammars and Dependency Trees
Radu Gramatovici | Carlos Martín-Vide

A new variant of structured contextual grammar, which generates dependency trees, is introduced. The new generative model, called dependency contextual grammar, improves both the strong and weak generative power of contextual grammars, while being a potential candidate for the mathematical description of dependency-based syntactic models.

pdf bib
Entre syntaxe et sémantique : Normalisation de la sortie de l’analyse syntaxique en vue de l’amélioration de l’extraction d’information à partir de textes
Caroline Hagège | Claude Roux

Cet article présente la normalisation de la sortie d’un analyseur robuste de l’anglais. Nous montrons quels sont les enrichissements que nous avons effectués afin de pouvoir obtenir à la sortie de notre analyseur des relations syntaxiques plus générales que celles que nous offrent habituellement les analyseurs robustes existants. Pour cela nous utilisons non seulement des propriétés syntaxiques, mais nous faisons appel aussi à de l’information de morphologie dérivationnelle. Cette tâche de normalisation est menée à bien grâce à notre analyseur XIP qui intègre tous les traitements allant du texte brut tout venant au texte normalisé. Nous pensons que cette normalisation nous permettra de mener avec plus de succès des tâches d’extraction d’information ou de détection de similarité entre documents.

pdf bib
L’identification des structures discursives engendrées par les cadres organisationnels
Agata Jackiewicz | Jean-Luc Minel

Cet article présente tout d’abord une analyse linguistique des cadres organisationnels et son implémentation informatique. Puis à partir de ce travail, une modélisation généralisable à l’ensemble des cadres de discours est proposée. Enfin, nous discutons du concept d’indicateur proposé dans le cadre théorique de l’exploration contextuelle.

pdf bib
Vers la compréhension automatique de la parole : extraction de concepts par réseaux bayésiens
Salma Jamoussi | Kamel Smaïli | Jean-Paul Haton

La compréhension automatique de la parole peut être considérée comme un problème d’association entre deux langages différents. En entrée, la requête exprimée en langage naturel et en sortie, juste avant l’étape d’interprétation, la même requête exprimée en terme de concepts. Un concept représente un sens bien déterminé. Il est défini par un ensemble de mots partageant les mêmes propriétés sémantiques. Dans cet article, nous proposons une méthode à base de réseau bayésien pour l’extraction automatique des concepts ainsi que trois approches différentes pour la représentation vectorielle des mots. Ces représentations aident un réseau bayésien à regrouper les mots, construisant ainsi la liste adéquate des concepts à partir d’un corpus d’apprentissage. Nous conclurons cet article par la description d’une étape de post-traitement au cours de laquelle, nous étiquetons nos requêtes et nous générons les commandes SQL appropriées validant ainsi, notre approche de compréhension.

pdf bib
Les signes grammaticaux dans l’interface sémantique-syntaxe d’une grammaire d’unification
Sylvain Kahane

Cet article présente une grammaire d’unification dans laquelle les morphèmes grammaticaux sont traités similairement aux morphèmes lexicaux!: les deux types de morphèmes sont traités comme des signes à part entière et sont décris par des structures élémentaires qui peuvent s’unifier directement les unes aux autres (ce qui en fait une grammaire de dépendance). Nous illustrerons notre propos par un fragment de l’interface sémantique-syntaxe du français pour le verbe et l’adjectif!: voix, modes, temps, impersonnel et tough-movement.

pdf bib
Une caractérisation de la pertinence pour les actions de référence
Frédéric Landragin

Que ce soit pour la compréhension ou pour la génération d’expressions référentielles, la Théorie de la Pertinence propose un critère cognitif permettant de comparer les pertinences de plusieurs expressions dans un contexte linguistique. Nous voulons ici aller plus loin dans cette voie en proposant une caractérisation précise de ce critère, ainsi que des pistes pour sa quantification. Nous étendons l’analyse à la communication multimodale, et nous montrons comment la perception visuelle, le langage et le geste ostensif interagissent dans la production d’effets contextuels. Nous nous attachons à décrire l’effort de traitement d’une expression multimodale à l’aide de traits. Nous montrons alors comment des comparaisons entre ces traits permettent d’exploiter efficacement le critère de pertinence en communication homme-machine. Nous soulevons quelques points faibles de notre proposition et nous en tirons des perspectives pour une formalisation de la pertinence.

pdf bib
De la traduction probabiliste aux mémoires de traduction (ou l’inverse)
Philippe Langlais | Michel Simard

En dépit des travaux réalisés cette dernière décennie dans le cadre général de la traduction probabiliste, nous sommes toujours bien loin du jour où un engin de traduction automatique (probabiliste ou pas) sera capable de répondre pleinement aux besoins d’un traducteur professionnel. Dans une étude récente (Langlais, 2002), nous avons montré comment un engin de traduction probabiliste pouvait bénéficier de ressources terminologiques extérieures. Dans cette étude, nous montrons que les techniques de traduction probabiliste peuvent être utilisées pour extraire des informations sous-phrastiques d’une mémoire de traduction. Ces informations peuvent à leur tour s’avérer utiles à un engin de traduction probabiliste. Nous rapportons des résultats sur un corpus de test de taille importante en utilisant la mémoire de traduction d’un concordancier bilingue commercial.

pdf bib
Une analyse des emplois du démonstratif en corpus
Hélène Manuélian

Cet article propose une nouvelle classification des utilisations des démonstratifs, une mise en oeuvre de cette classification dans une analyse de corpus et présente les resultats obtenus au terme de cette analyse. La classification proposée est basée sur celles existant dans la littérature et étendues pour permettre la génération de groupes nominaux démonstratifs. L’analyse de corpus montre en particulier que la nature “reclassifiante” du démonstratif lui permet d’assumer deux fonctions (une fonction anaphorique et une fonction de support pour de l’information nouvelle) et qu’il existe des moyens variés de réaliser ces fonctions.

pdf bib
MULTI-ANALYSE vers une analyse syntaxique plus fiable
Laura Monceaux | Anne Vilnat

Dans cet article, nous proposons de montrer que la combinaison de plusieurs analyses syntaxiques permet d’extraire Panalyse la plus fiable pour une phrase donnée. De plus, chaque information syntaxique sera affectée d’un score de confiance déterminé selon le nombre d’analyseurs syntaxiques la confirmant. Nous verrons que cette approche implique l’étude des différents analyseurs syntaxiques existants ainsi que leur évaluation.

pdf bib
Apprentissage discriminant pour les Grammaires à Substitution d’Arbres
Antoine Rozenknop | Jean-Cédric Chappelier | Martin Rajman

Les grammaires stochastiques standards utilisent des modèles probabilistes de nature générative, fondés sur des probabilités de récriture conditionnées par le symbole récrit. Les expériences montrent qu’elles tendent ainsi par nature à pénaliser les dérivations les plus longues pour une mˆeme entrée, ce qui n’est pas forcément un comportement souhaitable, ni en analyse syntaxique, ni en reconnaissance de la parole. Dans cet article, nous proposons une approche probabiliste non-générative du modèle STSG (grammaire stochastique à substitution d’arbres), selon laquelle les probabilités sont conditionnées par les feuilles des arbres syntaxiques plutˆot que par leur racine, et qui par nature fait appel à un apprentissage discriminant. Plusieurs expériences sur ce modèle sont présentées.

pdf bib
Amélioration de liens entre acceptions par fonctions lexicales vectorielles symétriques
Didier Schwab | Mathieu Lafourcade | Violaine Prince

Dans le cadre du projet Papillon qui vise à la construction de bases lexicales multilingues par acceptions, nous avons défini des stratégies pour peupler un dictionnaire pivot de liens interlingues à partir d’une base vectorielle monolingue. Il peut y avoir un nombre important de sens par entrée et donc l’identification des acceptions correspondantes peut être erronée. Nous améliorons l’intégrité de la base d’acception grâce à des agents experts dans les fonctions lexicales comme la synonymie, l’antonymie, l’hypéronymie ou l’holonymie. Ces agents sont capable de calculer la pertinence d’une relation sémantique entre deux acceptions par les diverses informations lexicales récoltées et les vecteurs conceptuels. Si une certaine pertinence est au-dessus d’un seuil, ils créent un lien sémantique qui peut être utilisé par d’autres agents chargés par exemple de la désambiguïsation ou du transfert lexical. Les agents vérifiant l’intégrité de la base cherchent les incohérences de la base et en avertissent les lexicographes le cas échéant.

pdf bib
French Amalgam: A machine-learned sentence realization system
Martine Smets | Michael Gamon | Simon Corston-Oliver | Eric Ringger

This paper presents the French implementation of Amalgam, a machine-learned sentence realization system. It presents in some detail two of the machine-learned models employed in Amalgam and shows how linguistic intuition and knowledge can be combined with statistical techniques to improve the performance of the models.

pdf bib
Une grammaire formelle du créole martiniquais pour la génération automatique
Pascal Vaillant

Nous présenterons dans cette communication les premiers travaux de modélisation informatique d’une grammaire de la langue créole martiniquaise, en nous inspirant des descriptions fonctionnelles de Damoiseau (1984) ainsi que du manuel de Pinalie & Bernabé (1999). Prenant appui sur des travaux antérieurs en génération de texte (Vaillant, 1997), nous utilisons un formalisme de grammaires d’unification, les grammaires d’adjonction d’arbres (TAG d’après l’acronyme anglais), ainsi qu’une modélisation de catégories lexicales fonctionnelles à base syntaxico-sémantique, pour mettre en oeuvre une grammaire du créole martiniquais utilisable dans une maquette de système de génération automatique. L’un des intérêts principaux de ce système pourrait être son utilisation comme logiciel outil pour l’aide à l’apprentissage du créole en tant que langue seconde.

pdf bib
Cartographie lexicale pour la recherche d”information
Jean Véronis

Nous décrivons un algorithme, HyperLex, de détermination automatique des différents usages d’un mot dans une base textuelle sans utilisation d’un dictionnaire. Cet algorithme basé sur la détection des composantes de forte densité du graphe des cooccurrences de mots permet, contrairement aux méthodes précédemment proposées (vecteurs de mots), d’isoler des usages très peu fréquents. Il est associé à une technique de représentation graphique permettant à l’utilisateur de naviguer de façon visuelle à travers le lexique et d’explorer les différentes thématiques correspondant aux usages discriminés.

pdf bib
Application d’algorithmes de classification automatique pour la détection des contenus racistes sur l’Internet
Romain Vinot | Natalia Grabar | Mathieu Valette

Le filtrage de contenus illicites sur Internet est une problématique difficile qui est actuellement résolue par des approches à base de listes noires et de mots-clés. Les systèmes de classification textuelle par apprentissage automatique nécessitant peu d’interventions humaines, elles peuvent avantageusement remplacer ou compléter les méthodes précédentes pour faciliter les mises à jour. Ces techniques, traditionnellement utilisées avec des catégories définies par leur sujet (économie ou sport par exemple), sont fondées sur la présence ou l’absence de mots. Nous présentons une évaluation de ces techniques pour le filtrage de contenus racistes. Contrairement aux cas traditionnels, les documents ne doivent pas être catégorisés suivant leur sujet mais suivant le point de vue énoncé (raciste ou antiraciste). Nos résultats montrent que les classifieurs, essentiellement lexicaux, sont néanmoins bien adaptées : plus de 90% des documents sont correctement classés, voir même 99% si l’on accepte une classe de rejet (avec 20% d’exemples non classés).

pdf bib
Apprentissage de relations morphologiques en corpus
Pierre Zweigenbaum | Fadila Hadouche | Natalia Grabar

Nous proposons une méthode pour apprendre des relations morphologiques dérivationnelles en corpus. Elle se fonde sur la cooccurrence en corpus de mots formellement proches et un filtrage complémentaire sur la forme des mots dérivés. Elle est mise en oeuvre et expérimentée sur un corpus médical. Les relations obtenues avant filtrage ont une précision moyenne de 75,6 % au 5000è rang (fenêtre de 150 mots). L’examen détaillé des dérivés adjectivaux d’un échantillon de 633 noms du champ de l’anatomie montre une bonne précision de 85–91 % et un rappel modéré de 32–34 %. Nous discutons ces résultats et proposons des pistes pour les compléter.