pdf
bib
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Denis Maurel
pdf
bib
abs
Un corpus français arboré : quelques interrogations
Anne Abeillé
|
Lionel Clément
|
Alexandra Kinyon
|
François Toussenel
Dans cet article nous présentons les premiers résultats de l’exploitation d’un Corpus français arboré (Abeillé et al., 2001). Le corpus comprend 1 million de mots entièrement annotés et validé pour les parties du discours, la morphologie, les mots composés et les lemmes, et partiellement annotés pour les constituants syntaxiques. Il comprend des extraits de journaux parus entre 1989 et 1993 et écrits par divers auteurs, et couvre différents thèmes (économie, littérature, politique, etc.). Après avoir expliqué comment ce corpus a été construit, et comment l’exploiter à l’aide d’un outil de recherche spécifique, nous exposerons quelques résultats linguistiques concernant les fréquences et les préférences lexicales et syntaxiques. Nous expliquerons pourquoi nous pensons que certains de ces résultats sont pertinents en linguistique théorique et en psycholinguistique.
pdf
bib
abs
Représenter le temps en langue dans le formalisme des graphes conceptuels une approche basée sur les schèmes sémantico-cognitifs
Tassadit Amghar
|
Delphine Battistelli
|
Thierry Charnois
L’objectif de notre travail est de construire une représentation sémantique d’un corpus de textes français au sein des graphes conceptuels simples. Notre conceptualisation est fondée sur les Schèmes Sémantico-Cognitifs et la théorie aspecto-temporelle introduits par J. P. Desclés. Un texte est représenté par deux structures. La première modélise la représention semanticocognitive des propositions du texte, et la seconde le diagramme temporel exprimant les contraintes temporelles entre les différentes situations décrites dans le texte. La prise en compte de ces deux structures et des liens qu’elles entretiennent nous a amenés à modifier le modèle des graphes conceptuels simples et à envisager les modes d’interaction entre temps, aspect (grammatical) et significations des lexèmes verbaux.
pdf
bib
abs
Aides à l’analyse pour la construction de banque d’arbres : étude de l’effort
Nicolas Auclerc
|
Yves Lepage
La construction de banque d’arbres est une entreprise lourde qui prend du temps. Pour faciliter cette construction, nous voyons la construction de banques d’arbres comme une série d’opérations d’édition et de recherche. Le but de cet article est d’estimer l’effort, en nombre d’opérations d’éditions, nécessaire pour ajouter une nouvelle phrase dans la banque d’arbres. Nous avons proposé un outil, Boardedit, qui inclut un éditeur d’arbres et des aides a l’analyse. Comme l’effort nécessaire dépend bien sûr de la qualité des réponses fournies par les aides a l’analyse, il peut être vue comme une mesure de la qualité de ces aides. L’éditeur d’arbres restant indispensable a notre outil pendant l’eXpérience, les aides a l’analyse seront donc toujours associées a l’éditeur d’arbres. Dans l’eXpérience proposée, nous augmentons une banque d’arbres de 5 000 phrases par l 553 nouvelles phrases. La réduction obtenue est supérieure auX 4/5 de l’effort.
pdf
bib
abs
Atelier ATOLL pour les grammaires d’arbres adjoints
François Barthélemy
|
Pierre Boullier
|
Philippe Deschamp
|
Linda Kaouane
|
Éric Villemonte De La Clergerie
Cet article présente l’environnement de travail que nous développons au sein de l’équipe ATOLL pour les grammaires d’arbres adjoints. Cet environnement comprend plusieurs outils et ressources fondés sur l’emploi du langage de balisage XML. Ce langage facilite la mise en forme et l’échange de ressources linguistiques.
pdf
bib
abs
Modèle d’exploration contextuelle pour l’analyse sémantique de textes
Slim Ben Hazez
|
Jean-Pierre Desclés
|
Jean-Luc Minel
Nous présentons dans cet article un modèle d’exploration contextuelle et une plate-forme logicielle qui permet d’accéder au contenu sémantique des textes et d’en extraire des séquences particulièrement pertinentes. L’objectif est de développer et d’exploiter des ressources linguistiques pour identifier dans les textes, indépendamment des domaines traités, certaines des relations organisatrices des connaissances ainsi que les organisations discursives mises en places par l’auteur. L’analyse sémantique du texte est guidée par le repérage d’indices linguistiques déclencheurs dont l’emploi est représentatif des notions étudiées.
pdf
bib
abs
Intégration probabiliste de sens dans la représentation de textes
Romaric Besançon
|
Antoine Rozenknop
|
Jean-Cédric Chappelier
|
Martin Rajman
Le sujet du présent article est l’intégration des sens portés par les mots en contexte dans une représentation vectorielle de textes, au moyen d’un modèle probabiliste. La représentation vectorielle considérée est le modèle DSIR, qui étend le modèle vectoriel (VS) standard en tenant compte à la fois des occurrences et des co-occurrences de mots dans les documents. L’intégration des sens dans cette représentation se fait à l’aide d’un modèle de Champ de Markov avec variables cachées, en utilisant une information sémantique dérivée de relations de synonymie extraites d’un dictionnaire de synonymes.
pdf
bib
abs
Les n-grams de caractères pour l’aide à l’extraction de connaissances dans des bases de données textuelles multilingues
Ismaïl Biskri
|
Sylvain Delisle
Une véritable classification numérique multilingue est impossible si on considère seulement le mot comme unité d’information privilégiée. En traitant les mots comme jetons, la tokenisation s’avère relativement simple pour le français et l’anglais, mais très difficile pour des langues comme l’allemand ou l’arabe. D’autre part, la lemmatisation utilisée comme moyen de normalisation et de réduction du lexique constitue un écueil non moins négligeable. La notion de n-grams, qui depuis une décennie donne de bons résultats dans Pidentification de la langue ou dans l’analyse de l’oral, est, par les recherches récentes, devenue un axe privilégié dans l’acquisition et l’extraction des connaissances dans les textes. Dans cet article, nous présenterons un outil de classification numérique basé sur le concept de n-grams de caractères. Nous évaluons aussi les résultats de cet outil que nous comparons à des résultats obtenus au moyen d’une classification fondée sur des mots.
pdf
bib
abs
Dépendances à distance dans les grammaires de propriétés : l’exemple des disloquées
Philippe Blache
Cet article propose une description des dépendances à distances s’appuyant sur une approche totalement déclarative, les grammaires de propriétés, décrivant l’information linguistique sous la forme de contraintes. L’approche décrite ici consiste à introduire de façon dynamique en cours d’analyse de nouvelles contraintes, appelées propriétés distantes. Cette notion est illustrée par la description du phénomène des disloquées en français.
pdf
bib
abs
L’interrogation de bases de données comme application des classes d’objets
Béatrice Bouchou
|
Julien Lerat
|
Denis Maurel
En travaillant sur l’interrogation de bases de données en langue naturelle, nous sommes amenés à exploiter les propositions du Laboratoire de Linguistique Informatique (LLI) en matière de représentation de la langue : les classes d’objets. Un outil d’interrogation définit une application du langage vers le modèle de l’information stockée. Ici les classes d’objets et leurs prédicats appropriés modélisent le langage source, tandis que le modèle relationnel sert pour les données interrogées. Nous présentons d’abord ce contexte d’application, puis comment nous utilisons les classes d’objets et prédicats appropriés dans ce cadre.
pdf
bib
abs
Etiquetage prosodique semi-automatique des corpus oraux
Estelle Campione
|
Jean Véronis
La transcription manuelle de la prosodie est une tâche extrêmement coûteuse en temps, qui requiert des annotateurs très spécialisés, et qui est sujette à de multiples erreurs et une grande part de subjectivité. Une automatisation complète n’est pas envisageable dans l’état actuel de la technologie, mais nous présentons dans cette communication des outils et une méthodologie qui permettent une réduction substantielle du temps d’intervention manuelle, et améliorent l’objectivité et la cohérence du résultat. De plus, les étapes manuelles nécessaires ne demandent pas une expertise phonétique poussée et peuvent être menées à bien par des étudiants et des “linguistes de corpus”.
pdf
bib
abs
Grammaire à substitution d’arbre de complexité polynomiale : un cadre efficace pour DOP
Jean-Cédric Chappelier
|
Martin Rajman
Trouver l’arbre d’analyse le plus probable dans le cadre du modèle DOP (Data-Oriented Parsing) — une version probabiliste de grammaire à substitution d’arbres développée par R. Bod (1992) — est connu pour être un problème NP-difficile dans le cas le plus général (Sima’an, 1996a). Cependant, si l’on introduit des restrictions a priori sur le choix des arbres élémentaires, on peut obtenir des instances particulières de DOP pour lesquelles la recherche de l’arbre d’analyse le plus probable peut être effectuée en un temps polynomial (par rapport à la taille de la phrase à analyser). La présente contribution se propose d’étudier une telle instance polynomiale de DOP, fondée sur le principe de sélection miminale-maximale et d’en évaluer les performances sur deux corpus différents.
pdf
bib
abs
Aggregation by Conflation of Quasi-Synonymous Units in Author Abstracting
Choy-Kim Chuah
In text generation, studies on aggregation often focus on the use of connectives to combine short made-up sentences. But connectives restrict the number of units that may be combined at any one time. So, how does information get condensed into fewer units without excessive use of connectives? From a comparison of document and abstract, this reconnaissance study reports on some preferred patterns in aggregation when authors write abstracts for journal articles on biology. The paper also discusses some prerequisites and difficulties anticipated for abstracting systems. More sentences were aggregated without than with the use of an explicit sign, such as a connective or a (semi-)colon.
pdf
bib
abs
Utilisation des entités nommées et des variantes terminologiques dans un système de question-réponse
Olivier Ferret
|
Brigitte Grau
|
Martine Hurault-Plantet
|
Gabriel Illouz
|
Christian Jacquemin
Nous présentons dans cet article le système QALC qui a participé à la tâche Question Answering de la conférence d’évaluation TREC. Ce système repose sur un ensemble de modules de Traitement Automatique des Langues (TAL) intervenant essentiellement en aval d’un moteur de recherche opérant sur un vaste ensemble de documents : typage des questions, reconnaissance des entités nommées, extraction et reconnaissance de termes, simples et complexes, et de leurs variantes. Ces traitements permettent soit de mieux sélectionner ces documents, soit de décider quelles sont les phrases susceptibles de contenir la réponse à une question.
pdf
bib
abs
Repérage de structures thématiques dans des textes
Olivier Ferret
|
Brigitte Grau
|
Jean-Luc Minel
|
Sylvie Porhiel
Afin d’améliorer les performances des systèmes de résumé automatique ou de filtrage sémantique concernant la prise en charge de la cohérence thématique, nous proposons un modèle faisant collaborer une méthode d’analyse statistique qui identifie les ruptures thématiques avec un système d’analyse linguistique qui identifie les cadres de discours.
pdf
bib
abs
Influence de facteurs stylistiques, syntaxiques et lexicaux sur la réalisation de la liaison en français
Cécile Fougeron
|
Jean-Philippe Goldman
|
Alicia Dart
|
Laurence Guélat
|
Clémentine Jeager
Les nombreuses recherches portant sur le phénomène de la liaison en français ont pu mettre en évidence l’influence de divers paramètres linguistiques et para-linguistiques sur la réalisation des liaisons. Notre contribution vise à déterminer la contribution relative de certains de ces facteurs en tirant parti d’une méthodologie robuste ainsi que d’outils de traitement automatique du langage. A partir d’un corpus de 5h de parole produit par 10 locuteurs, nous étudions les effets du style de parole (lecture oralisée/parole spontanée), du débit de parole (lecture normale/rapide), ainsi que la contribution de facteurs syntaxiques et lexicaux (longueur et fréquence lexicale) sur la réalisation de la liaison. Les résultats montrent que si plusieurs facteurs étudiés prédisent certaines liaisons, ces facteurs sont souvent interdépendants et ne permettent pas de modéliser avec exactitude la réalisation des liaisons.
pdf
bib
abs
Elaboration d’une cascade de transducteurs pour l’extraction des noms de personnes dans les textes
Nathalie Friburger
|
Denis Maurel
Cet article décrit une cascade de transducteurs pour l’extraction de noms propres dans des textes. Après une phase de pré-traitement (découpage du texte en phrases, étiquetage à l’aide de dictionnaires), une série de transducteurs sont appliqués les uns après les autres sur le texte et permettent de repérer, dans les contextes gauches et droits des éléments “déclencheurs” qui signalent la présence d’un nom de personne. Une évaluation sur un corpus journalistique (journal Le Monde) fait apparaître un taux de précision de 98,7% pour un taux de rappel de 91,9%.
pdf
bib
abs
Extraction automatique de motifs syntaxiques
Jean-Gabriel Ganascia
Cet article présente un nouvel algorithme de détection de motifs syntaxiques récurrents dans les textes écrits en langage naturel. Il décrit d’abord l’algorithme d’extraction fondé sur un modèle d’édition généralisé à des arbres stratifiés ordonnés (ASO). Il décrit ensuite les expérimentations qui valident l’approche préconisée sur des textes de la littérature française classique des XVIIIe et XIXe siècle. Une sous-partie est consacrée à l’évaluation empirique de la complexité algorithmique. La dernière sous-partie donnera quelques exemples de motifs récurrents typiques d’un auteur du XVIIIe siècle, Madame de Lafayette.
pdf
bib
abs
Compréhension Automatique de la Parole combinant syntaxe locale et sémantique globale pour une CHM portant sur des tâches relativement complexes
Jérôme Goulian
|
Jean-Yves Antoine
Nous présentons dans cet article un système de Compréhension Automatique de la Parole (CAP) tentant de concilier les contraintes antinomiques de robustesse et d’analyse détaillée de la parole spontanée. Dans une première partie, nous montrons l’importance de la mise en oeuvre d’une CAP fine dans l’optique d’une Communication Homme-Machine (CHM) sur des tâches moyennement complexes. Nous présentons ensuite l’architecture de notre système qui repose sur une analyse en deux étapes : une première étape d’analyse syntaxique de surface (Shallow Parsing) générique suivie d’une seconde étape d’analyse sémantico-pragmatique – dépendante du domaine d’application – de la structure profonde de l’ ́enoncé complet.
pdf
bib
abs
Exploitation de l’expertise humaine dans un processus de constitution de terminologie
Thierry Hamon
|
Adeline Nazarenko
Le processus de construction de terminologie ne peut être entièrement automatisé. Les méthodes et des outils de la terminologie computationnelle permettent de prendre en charge une partie de la tâche, mais l’expertise humaine garde une place prépondérant. Le défi pour les outils terminologiques est de dégrossir les tâches qui sont soit trop longues soit trop complexes pour l’utilisateur tout en permettant à ce dernier d’intégrer ses propres connaissances spécialisées et en lui laissant le contrôle sur la terminologie à construire. Nous montrons ici comment le rôle de cette expertise est pris en compte dans SynoTerm, l’outil d’acquisition de relation de synonymie entre termes que nous avons d ́eveloppé.
pdf
bib
abs
Analogies morpho-synonymiques. Une méthode d’acquisition automatique de liens morphologiques à partir d’un dictionnaire de synonymes
Nabil Hathout
Cet article présente une méthode de construction automatique de liens morphologiques à partir d’un dictionnaire de synonymes. Une analyse de ces liens met en lumière certains aspects de la structure morphologique du lexique dont on peut tirer partie pour identifier les variations allomorphiques des suffixations extraites.
pdf
bib
abs
Synonymies et vecteurs conceptuels
Mathieu Lafourcade
|
Violaine Prince
La synonymie est une relation importante en TAL mais qui reste problématique. La distinction entre synonymie relative et synonymie subjective permet de contourner certaines difficultés. Dans le cadre des vecteurs conceptuels, il est alors possible de définir formellement des fonctions de test de synonymie et d’en expérimenter l’usage.
pdf
bib
abs
Récupération de segments sous-phrastiques dans une mémoire de traduction
Philippe Langlais
|
Michel Simard
L’utilité des outils d’aide à la traduction reposant sur les mémoires de traduction est souvent limitée par la nature des segments que celles-ci mettent en correspondance, le plus souvent des phrases entières. Cet article examine le potentiel d’un type de système qui serait en mesure de récupérer la traduction de séquences de mots de longueur arbitraire.
pdf
bib
abs
Vers une plate-forme multi-agents pour l’exploration et le traitement linguistiques
Thomas Lebarbé
Dans cet article, nous proposons une plate-forme multi-agents pour l’expérimentation et le traitement linguistique. Après une description du modèle d’agent APA, nous présentons l’état actuel de nos travaux: une implémentation en système multi-agents de l’analyse syntaxique selon le paradigme des grammaires de dépendances en chunk. Nous montrons ensuite d’autres possibilités d’implémentation selon d’autres paradigmes syntaxiques mais aussi au delà de la simple syntaxe.
pdf
bib
abs
Une typologie des énumérations basée sur les structures rhétoriques et architecturales du texte
Christophe Luc
Cet article concerne la caractérisation et la représentation de la structure interne des énumérations. Pour ce faire, nous utilisons deux modèles de texte : d’une part la Théorie des Structures Rhétoriques (RST) qui fournit un cadre d’interprétation pour la structure discursive des textes et d’autre part le modèle de représentation de l’architecture textuelle qui est principalement dédié à l’étude et à la représentation des structures visuelles des textes. Après une brève présentation des modèles, nous nous concentrons sur l’étude de l’objet “énumérations”. Nous exhibons et commentons trois exemples d’énumérations spécifiques que nous appelons des énumérations non-parallèles. Nous analysons la structure de ces énumérations et proposons un principe de composition des modèles de référence pour représenter ces énumérations. Enfin, nous présentons une classification des énumérations s’appuyant sur les caractéristiques de ces modèles.
pdf
bib
abs
Désambiguïsation syntaxique des groupes nominaux en anglais médical : étude des structures adjectivales à partir d’un corpus bilingue
François Maniez
L’ambiguïté syntaxique constitue un problème particulièrement délicat à résoudre pour les analyseurs morphosyntaxiques des logiciels d’aide à la traduction, en particulier dans le cas des longs groupes nominaux typiques des langues de spécialité. En utilisant un corpus bilingue d’articles médicaux anglais traduits vers le français, nous examinons divers moyens de résoudre l’ambiguïté du rattachement de l’adjectif à l’un des deux noms qui le suivent dans les tournures anglaises de forme adjectif-nom-nom.
pdf
bib
DEFI, un outil d’aide à la compréhension
Archibald Michiels
pdf
bib
abs
Extraction d’information dans les bases de données textuelles en génomique au moyen de transducteurs à nombre fini d’états
Thierry Poibeau
Cet article décrit un système d’extraction d’information sur les interactions entre gènes à partir de grandes bases de données textuelles. Le système est fondé sur une analyse au moyen de transducteurs à nombre fini d’états. L’article montre comment une partie des ressources (verbes d’interaction) peut être acquise de manière semi-automatique. Une évaluation détaillée du système est fournie.
pdf
bib
abs
Ontologies for Information Retrieval
Amalia Todiraşcu
|
François Rousselot
The paper presents a system for querying (in natural language) a set of text documents from a limited domain. The domain knowledge, represented in description logics (DL), is used for filtering the documents returned as answer and it is extended dynamically (when new concepts are identified in the texts), as result of DL inference mechanisms. The conceptual hierarchy is built semi-automatically from the texts. Concept instances are identified using shallow natural language parsing techniques.
pdf
bib
abs
A System for Extraction of Temporal Expressions from French Texts
Nikolai Vazov
We present a system for extraction of temporal expressions from French texts. The identification of the temporal expressions is based on a context-scanning strategy (CSS) which is carried out by two complementary techniques: search for regular expressios and left-to-right and right-to-left local chartparsing. A number of semantic and distant-dependency constraints have been integrated to the chartparsing procedure in order to improve the precision of the system.