Journées d'Etudes sur la Parole / Traitement Automatique de la Langue Naturelle / Rencontres des Etudiants Chercheurs en Informatique et Traitement Automatique des Langues (2005)


up

bib (full) Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

pdf bib
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Michèle Jardino

pdf bib
Comment obtenir plus des Méta-Grammaires
François Thomasset | Éric Villemonte De La Clergerie

Cet article présente un environnement de développement pour les méta-grammaires (MG), utilisé pour concevoir rapidement une grammaire d’arbres adjoints (TAG) du français à large couverture et néanmoins très compacte, grâce à des factorisations d’arbres. Exploitant les fonctionnalités fournies par le système DYALOG, cette grammaire a permis de construire un analyseur syntaxique hybride TAG/TIG utilisé dans le cadre de la campagne d’évaluation syntaxique EASY.

pdf bib
XMG : un Compilateur de Méta-Grammaires Extensible
Denys Duchier | Joseph Le Roux | Yannick Parmentier

Dans cet article, nous présentons un outil permettant de produire automatiquement des ressources linguistiques, en l’occurence des grammaires. Cet outil se caractérise par son extensibilité, tant du point de vue des formalismes grammaticaux supportés (grammaires d’arbres adjoints et grammaires d’interaction à l’heure actuelle), que de son architecture modulaire, qui facilite l’intégration de nouveaux modules ayant pour but de vérifier la validité des structures produites. En outre, cet outil offre un support adapté au développement de grammaires à portée sémantique.

pdf bib
Grammaire d’Unification Sens-Texte : modularité et polarisation
Sylvain Kahane | François Lareau

L’objectif de cet article est de présenter l’état actuel du modèle de la Grammaire d’Unification Sens-Texte, notamment depuis que les bases formelles du modèle ont été éclaircies grâce au développement des Grammaires d’Unification Polarisées. L’accent est mis sur l’architecture du modèle et le rôle de la polarisation dans l’articulation des différents modules — l’interface sémantique-syntaxe, l’interface syntaxe-morphotopologie et les grammaires décrivant les différents niveaux de représentation. Nous étudions comment les procédures d’analyse et de génération sont contrôlables par différentes stratégies de neutralisation des différentes polarités.

pdf bib
Indexation Sémantique par Coupes de Redondance Minimale dans une Ontologie
Florian Seydoux | Jean-Cédric Chappelier

Plusieurs travaux antérieurs ont fait état de l’amélioration possible des performances des systèmes de recherche documentaire grace à l’utilisation d’indexation sémantique utilisant une ontologie (p.ex. WordNet). La présente contribution décrit une nouvelle méthode visant à réduire le nombre de termes d’indexation utilisés dans une indexation sémantique, en cherchant la coupe de redondance minimale dans la hiérarchie fournie par l’ontologie. Les résultats, obtenus sur diverses collections de documents en utilisant le dictionnaire EDR, sont présentés.

pdf bib
Recherche en corpus de réponses à des questions définitoires
Véronique Malaisé | Thierry Delbecque | Pierre Zweigenbaum

Les systèmes de questions-réponses, essentiellement focalisés sur des questions factuelles en domaine ouvert, testent également d’autres tâches, comme le travail en domaine contraint ou la recherche de définitions. Nous nous intéressons ici à la recherche de réponses à des questions « définitoires » portant sur le domaine médical. La recherche de réponses de type définitoire se fait généralement en utilisant deux types de méthodes : celles s’appuyant essentiellement sur le contenu du corpus cible, et celles faisant appel à des connaissances externes. Nous avons choisi de nous limiter au premier de ces deux types de méthodes. Nous présentons une expérience dans laquelle nous réutilisons des patrons de repérage d’énoncés définitoires, conçus pour une autre tâche, pour localiser les réponses potentielles aux questions posées. Nous avons intégré ces patrons dans une chaîne de traitement que nous évaluons sur les questions définitoires et le corpus médical du projet EQueR sur l’évaluation de systèmes de questions-réponses. Cette évaluation montre que, si le rappel reste à améliorer, la « précision » des réponses obtenue (mesurée par la moyenne des inverses de rangs) est honorable. Nous discutons ces résultats et proposons des pistes d’amélioration.

pdf bib
QRISTAL, système de Questions-Réponses
Dominique Laurent | Patrick Séguéla

QRISTAL (Questions-Réponses Intégrant un Système de Traitement Automatique des Langues) est un système de questions-réponses utilisant massivement le TAL, tant pour l’indexation des documents que pour l’extraction des réponses. Ce système s’est récemment classé premier lors de l’évaluation EQueR (Evalda, Technolanguez). Après une description fonctionnelle du système, ses performances sont détaillées. Ces résultats et des tests complémentaires permettent de mieux situer l’apport des différents modules de TAL. Les réactions des premiers utilisateurs incitent enfin à une réflexion sur l’ergonomie et les contraintes des systèmes de questions-réponses, face aux outils de recherche sur le Web.

pdf bib
Morphosémantique pour l’appariement de termes dans le vocabulaire médical : approche multilingue
Fiammetta Namer

Cet article s’intéresse à la manière dont la morphosémantique peut contribuer à l’appariement multilingue de variantes terminologiques entre termes. L’approche décrite permet de relier automatiquement entre eux les noms et adjectifs composés savants d’un corpus spécialisé en médecine (synonymie, hyponymie, approximation). L’acquisition de relations lexicales est une question particulièrement cruciale lors de l’élaboration de bases de données et de systèmes de recherche d’information multilingues. La méthode est applicable à au moins cinq langues européennes dont elle exploite les caractéristiques morphologiques similaires des mots composés dans les langues de spécialité. Elle consiste en l’intéraction de trois dispositifs : (1) un analyseur morphosémantique monolingue, (2) une table multilingue qui définit des relations de base entre les racines gréco-latines des lexèmes savants, (3) quatre règles indépendantes de la langue qui infèrent, à partir de ces relations de base, les relations lexicales entre les lexèmes contenant ces racines. L’approche décrite est implémentée en français, où l’on dispose d’un analyseur morphologique capable de calculer la définition de mots construits inconnus à partir du sens de ses composants. Le corpus de travail est un lexique spécialisé médical d’environ 29000 lexèmes, que le calcul des relations de synonymie, hyponymie et approximation a permis de regrouper en plus de 3000 familles lexicales.

pdf bib
Extraction semi-supervisée de couples d’antonymes grâce à leur morphologie
Didier Schwab | Mathieu Lafourcade | Violaine Prince

Dans le cadre de la recherche sur la représentation du sens en Traitement Automatique des Langues Naturelles, nous nous concentrons sur la construction d’un système capable d’acquérir le sens des mots, et les relations entre ces sens, à partir de dictionnaires à usage humain, du Web ou d’autres ressources lexicales. Pour l’antonymie, il n’existe pas de listes séparant les antonymies complémentaire, scalaire et duale. Nous présentons dans cet article une approche semi-supervisée permettant de construire ces listes. Notre méthode est basée sur les oppositions de nature morphologique qui peuvent exister entre les items lexicaux. À partir d’un premier ensemble de couples antonymes, elle permet non seulement de construire ces listes mais aussi de trouver des oppositions morphologiques. Nous étudions les résultats obtenus par cette méthode. En particulier, nous présentons les oppositions de préfixes ainsi découvertes et leur validité sur le corpus puis nous discutons de la répartition des types d’antonymie en fonction des couples opposés de préfixes.

pdf bib
Utilisation de corpus de spécialité pour le filtrage de synonymes de la langue générale
Natalia Grabar | Pierre Zweigenbaum

Les ressources linguistiques les plus facilement disponibles en TAL ressortissent généralement au registre général d’une langue. Lorsqu’elles doivent être utilisées sur des textes de spécialité il peut être utile de les adapter à ces textes. Cet article est consacré à l’adaptation de ressources synonymiques générales à la langue médicale. L’adaptation est obtenue suite à une série de filtrages sur un corpus du domaine. Les synonymes originaux et les synonymes filtrés sont ensuite utilisés comme une des ressources pour la normalisation de variantes de termes dans une tâche de structuration de terminologie. Leurs apports respectifs sont évalués par rapport à la structure terminologique de référence. Cette évaluation montre que les résultats sont globalement encourageants après les filtrages, pour une tâche comme la structuration de terminologies : une amélioration de la précision contre une légère diminution du rappel.

pdf bib
Combiner analyse superficielle et profonde : bilan et perspectives
Philippe Blache

L’analyse syntaxique reste un problème complexe au point que nombre d’applications n’ont recours qu’à des analyseurs superficiels. Nous faisons dans cet article le point sur les notions d’analyse superficielles et profondes en proposant une première caractérisation de la notion de complexité opérationnelle pour l’analyse syntaxique automatique permettant de distinguer objets et relations plus ou moins difficiles à identifier. Sur cette base, nous proposons un bilan des différentes techniques permettant de caractériser et combiner analyse superficielle et profonde.

pdf bib
Chaînes de traitement syntaxique
Pierre Boullier | Lionel Clément | Benoît Sagot | Éric Villemonte De La Clergerie

Cet article expose l’ensemble des outils que nous avons mis en oeuvre pour la campagne EASy d’évaluation d’analyse syntaxique. Nous commençons par un aperçu du lexique morphologique et syntaxique utilisé. Puis nous décrivons brièvement les propriétés de notre chaîne de traitement pré-syntaxique qui permet de gérer des corpus tout-venant. Nous présentons alors les deux systèmes d’analyse que nous avons utilisés, un analyseur TAG issu d’une méta-grammaire et un analyseur LFG. Nous comparons ces deux systèmes en indiquant leurs points communs, comme l’utilisation intensive du partage de calcul et des représentations compactes de l’information, mais également leurs différences, au niveau des formalismes, des grammaires et des analyseurs. Nous décrivons ensuite le processus de post-traitement, qui nous a permis d’extraire de nos analyses les informations demandées par la campagne EASy. Nous terminons par une évaluation quantitative de nos architectures.

pdf bib
Direkt Profil : un système d’évaluation de textes d’élèves de français langue étrangère fondé sur les itinéraires d’acquisition
Jonas Granfeldt | Pierre Nugues | Emil Persson | Lisa Persson | Fabian Kostadinov | Malin Ågren | Suzanne Schlytere

Direkt Profil est un analyseur automatique de textes écrits en français comme langue étrangère. Son but est de produire une évaluation du stade de langue des élèves sous la forme d’un profil d’apprenant. Direkt Profil réalise une analyse des phrases fondée sur des itinéraires d’acquisition, i.e. des phénomènes morphosyntaxiques locaux liés à un développement dans l’apprentissage du français. L’article présente les corpus que nous traitons et d’une façon sommaire les itinéraires d’acquisition. Il décrit ensuite l’annotation que nous avons définie, le moteur d’analyse syntaxique et l’interface utilisateur. Nous concluons par les résultats obtenus jusqu’ici : sur le corpus de test, le système obtient un rappel de 83% et une précision de 83%.

pdf bib
ILIMP: Outil pour repérer les occurences du pronom impersonnel il
Laurence Danlos

Nous présentons un outil, ILIMP, qui prend en entrée un texte brut (sans annotation linguistique) rédigé en français et qui fournit en sortie le texte d’entrée où chaque occurrence du pronom il est décorée de la balise [ANAphorique] ou [IMPersonnel]. Cet outil a donc comme fonctionnalité de distinguer les occurrences anaphoriques du pronom il, pour lesquelles un système de résolution des anaphores doit chercher un antécédent, des occurrences où il est un pronom impersonnel (explétif) pour lequel la recherche d’antécédent ne fait pas sens. ILIMP donne un taux de précision de 97,5%. Nous présentons une analyse détaillée des erreurs et nous décrivons brièvement d’autres applications potentielles de la méthode utilisée dans ILIMP, ainsi que l’utilisation et le positionnement d’ILIMP dans un système d’analyse syntaxique modulaire.

pdf bib
Que : la valse des étiquettes
Marie-Paule Jacques

Nous présentons ici une stratégie d’étiquetage et d’analyse syntaxique de que. Cette forme est en effet susceptible d’appartenir à trois catégories différentes et d’avoir de multiples emplois pour chacune de ces catégories. Notre objectif est aussi bien d’en assurer un étiquetage correct que d’annoter les relations de dépendance que que entretient avec les autres mots de la phrase. Les deux étapes de l’analyse mobilisent des ressources différentes.

pdf bib
Un système Multi-Agent pour la détection et la correction des erreurs cachées en langue Arabe
Chiraz Ben Othmane Zribi | Fériel Ben Fraj | Mohamed Ben Ahmed

Cet article s’intéresse au problème des erreurs orthographiques produisant des mots lexicalement corrects dans des textes en langue arabe. Après la description de l’influence des spécificités de la langue arabe sur l’augmentation du risque de commettre ces fautes cachées, nous proposons une classification hiérarchique de ces erreurs en deux grandes catégories ; à savoir syntaxique et sémantique. Nous présentons, également, l’architecture multi-agent que nous avons adoptée pour la détection et la correction des erreurs cachées en textes arabes. Nous examinons alors, les comportements sociaux des agents au sein de leurs organisations respectives et de leur environnement. Nous exposons vers la fin la mise en place et l’évaluation du système réalisé.

pdf bib
Structure des représentations logiques et interface sémantique-syntaxe
Sylvain Kahane

Cet article s’intéresse à la structure des représentations logiques des énoncés en langue naturelle. Par représentation logique, nous entendons une représentation sémantique incluant un traitement de la portée des quantificateurs. Nous montrerons qu’une telle représentation combine fondamentalement deux structures sous-jacentes, une structure « prédicative » et une structure hiérarchique logique, et que la distinction des deux permet, par exemple, un traitement élégant de la sous-spécification. Nous proposerons une grammaire polarisée pour manipuler directement la structure des représentations logiques (sans passer par un langage linéaire avec variables), ainsi qu’une grammaire pour l’interface sémantique-syntaxe.

pdf bib
Representational and architectural issues in a limited-domain medical speech translator
Manny Rayner | Pierrette Bouillon | Marianne Santaholma | Yukie Nakao

We present an overview of MedSLT, a medium-vocabulary medical speech translation system, focussing on the representational issues that arise when translating temporal and causal concepts. Although flat key/value structures are strongly preferred as semantic representations in speech understanding systems, we argue that it is infeasible to handle the necessary range of concepts using only flat structures. By exploiting the specific nature of the task, we show that it is possible to implement a solution which only slightly extends the representational complexity of the semantic representation language, by permitting an optional single nested level representing a subordinate clause construct. We sketch our solutions to the key problems of producing minimally nested representations using phrase-spotting methods, and writing cleanly structured rule-sets that map temporal and phrasal representations into a canonical interlingual form.

pdf bib
Sur le statut référentiel des entités nommées
Thierry Poibeau

Nous montrons dans cet article qu’une même entité peut être désignée de multiples façons et que les noms désignant ces entités sont par nature polysémiques. L’analyse ne peut donc se limiter à une tentative de résolution de la référence mais doit mettre en évidence les possibilités de nommage s’appuyant essentiellement sur deux opérations de nature linguistique : la synecdoque et la métonymie. Nous présentons enfin une modélisation permettant de rendre explicite les différentes désignations en discours, en unifiant le mode de représentation des connaissances linguistiques et des connaissances sur le monde.

pdf bib
Production automatique du résumé de textes juridiques: évaluation de qualité et d’acceptabilité
Atefeh Farzindar | Guy Lapalme

Nous décrivons un projet de production de résumé automatique de textes pour le domaine juridique pour lequel nous avons utilisé un corpus des jugements de la cour fédérale du Canada. Nous présentons notre système de résumé LetSum ainsi que l’évaluation des résumés produits. L’évaluation de 120 résumés par 12 avocats montre que la qualité des résumés produits par LetSum est comparable avec celle des résumés écrits par des humains.

pdf bib
Utilisation de la structure morpho-syntaxique des phrases dans le résumé automatique
Mehdi Yousfi-Monod | Violaine Prince

Nous proposons une technique de résumé automatique de textes par contraction de phrases. Notre approche se fonde sur l’étude de la fonction syntaxique et de la position dans l’arbre syntaxique des constituants des phrases. Après avoir défini la notion de constituant, et son rôle dans l’apport d’information, nous analysons la perte de contenu et de cohérence discursive que la suppression de constituants engendre. Nous orientons notre méthode de contraction vers les textes narratifs. Nous sélectionnons les constituants à supprimer avec un système de règles utilisant les arbres et variables de l’analyse morpho-syntaxique de SYGFRAN [Cha84]. Nous obtenons des résultats satisfaisants au niveau de la phrase mais insuffisants pour un résumé complet. Nous expliquons alors l’utilité de notre système dans un processus plus général de résumé automatique.

pdf bib
Amélioration de la segmentation automatique des textes grâce aux connaissances acquises par l’analyse sémantique latente
Yves Bestgen

Choi, Wiemer-Hastings et Moore (2001) ont proposé d’employer l’analyse sémantique latente (ASL) pour extraire des connaissances sémantiques à partir de corpus afin d’améliorer l’efficacité d’un algorithme de segmentation des textes. En comparant l’efficacité du même algorithme selon qu’il prend en compte des connaissances sémantiques complémentaires ou non, ils ont pu montrer les bénéfices apportés par ces connaissances. Dans leurs expériences cependant, les connaissances sémantiques avaient été extraites d’un corpus qui contenait les textes à segmenter dans la phase de test. Si cette hyperspécificité du corpus d’apprentissage explique la plus grande partie de l’avantage observé, on peut se demander s’il est possible d’employer l’ASL pour extraire des connaissances sémantiques génériques pouvant être employées pour segmenter de nouveaux textes. Les deux expériences présentées ici montrent que la présence dans le corpus d’apprentissage du matériel de test a un effet important, mais également que les connaissances sémantiques génériques dérivées de grands corpus améliorent l’efficacité de la segmentation.

pdf bib
Détection Automatique de Structures Fines du Discours
Nicolas Hernandez | Brigitte Grau

Dans ce papier, nous présentons un système de Détection de Structures fines de Texte (appelé DST). DST utilise un modèle prédictif obtenu par un algorithme d’apprentissage qui, pour une configuration d’indices discursifs donnés, prédit le type de relation de dépendance existant entre deux énoncés. Trois types d’indices discursifs ont été considérés (des relations lexicales, des connecteurs et un parallélisme syntaxico-sémantique) ; leur repérage repose sur des heuristiques. Nous montrons que notre système se classe parmi les plus performants.

pdf bib
Paradocs: un système d’identification automatique de documents parallèles
Alexandre Patry | Philippe Langlais

Les corpus parallèles sont d’une importance capitale pour les applications multilingues de traitement automatique des langues. Malheureusement, leur rareté est le maillon faible de plusieurs applications d’intérêt. Extraire de tels corpus duWeb est une solution viable, mais elle introduit une nouvelle problématique : il n’est pas toujours trivial d’identifier les documents parallèles parmi tous ceux qui ont été extraits. Dans cet article, nous nous intéressons à l’identification automatique des paires de documents parallèles contenues dans un corpus bilingue. Nous montrons que cette tâche peut être accomplie avec précision en utilisant un ensemble restreint d’invariants lexicaux. Nous évaluons également notre approche sur une tâche de traduction automatique et montrons qu’elle obtient des résultats supérieurs à un système de référence faisant usage d’un lexique bilingue.

pdf bib
Une approche à la traduction automatique statistique par segments discontinus
Michel Simard | Nicola Cancedda | Bruno Cavestro | Marc Dymetman | Eric Gaussier | Cyril Goutte | Philippe Langlais | Arne Mauser | Kenji Yamada

Cet article présente une méthode de traduction automatique statistique basée sur des segments non-continus, c’est-à-dire des segments formés de mots qui ne se présentent pas nécéssairement de façon contiguë dans le texte. On propose une méthode pour produire de tels segments à partir de corpus alignés au niveau des mots. On présente également un modèle de traduction statistique capable de tenir compte de tels segments, de même qu’une méthode d’apprentissage des paramètres du modèle visant à maximiser l’exactitude des traductions produites, telle que mesurée avec la métrique NIST. Les traductions optimales sont produites par le biais d’une recherche en faisceau. On présente finalement des résultats expérimentaux, qui démontrent comment la méthode proposée permet une meilleure généralisation à partir des données d’entraînement.

pdf bib
Alignement de mots par apprentissage de règles de propagation syntaxique en corpus de taille restreinte
Sylwia Ozdowska | Vincent Claveau

Cet article présente et évalue une approche originale et efficace permettant d’aligner automatiquement un bitexte au niveau des mots. Pour cela, cette approche tire parti d’une analyse syntaxique en dépendances des bitextes effectuée par les outils SYNTEX et utilise une technique d’apprentissage artificiel, la programmation logique inductive, pour apprendre automatiquement des règles dites de propagation. Celles-ci se basent sur les informations syntaxiques connues pour ensuite aligner les mots avec une grande précision. La méthode est entièrement automatique, et les résultats évalués sur les données de la campagne d’alignement HLT montrent qu’elle se compare aux meilleures techniques existantes. De plus, alors que ces dernières nécessitent plusieurs millions de phrases pour s’entraîner, notre approche n’en requiert que quelques centaines. Enfin, l’examen des règles de propagation inférées permet d’identifier facilement les cas d’isomorphismes et de non-isomorphismes syntaxiques entre les deux langues traitées.

pdf bib
Traduction de termes biomédicaux par inférence de transducteurs
Vincent Claveau | Pierre Zweigenbaum

Cet article propose et évalue une méthode de traduction automatique de termes biomédicaux simples du français vers l’anglais et de l’anglais vers le français. Elle repose sur une technique d’apprentissage artificiel supervisée permettant d’inférer des transducteurs à partir d’exemples de couples de termes bilingues ; aucune autre ressource ou connaissance n’est requise. Ces transducteurs, capturant les grandes régularités de traduction existant dans le domaine biomédical, sont ensuite utilisés pour traduire de nouveaux termes français en anglais et vice versa. Les évaluations menées montrent que le taux de bonnes traductions de notre technique se situe entre 52 et 67%. À travers un examen des erreurs les plus courantes, nous identifions quelques limites inhérentes à notre approche et proposons quelques pistes pour les dépasser. Nous envisageons enfin plusieurs extensions à ce travail.

pdf bib
Traitement automatique de la saillance
Frédéric Landragin

Lorsque nous écoutons un énoncé ou que nous lisons un texte, les phénomènes de saillance accaparent notre attention sur une entité du discours particulière. Cette notion de saillance comprend un grand nombre d’aspects, incluant des facteurs lexicaux, syntaxiques, sémantiques, pragmatiques, ou encore cognitifs. En tant que point de départ de l’interprétation du langage, la saillance fonctionne de pair avec la structure communicative. Dans cet article, notre but principal est de montrer comment aboutir à un modèle computationnel de la saillance, qui soit valable aussi bien pour la saillance linguistique que pour la saillance visuelle. Pour cela, nous retenons une liste de facteurs qui contribuent à rendre saillante une entité. Dans le cas d’une entité du discours, cette approche nous permet de clarifier les rapports entre saillance et structure communicative. Nous définissons nos principes de primordialité et de singularité, puis nous passons en revue les différentes méthodes de quantification de la saillance qui sont compatibles avec ces principes. Nous illustrons alors l’une d’entre elles sur un exemple linguistique et sur un exemple visuel.

pdf bib
Topiques dialogiques
Anne Xuereb | Jean Caelen

Nous présentons dans cet article une extension de la SDRT (Segmented Discourse Representation Theory), pour un modèle d’interprétation pragmatique d’un système de dialogue homme-machine. Partant d’une discussion sur les présupposés et les implicatures conversationnelles, nous analysons l’approche de Ducrot en Vue d’une intégration des topoï dans notre modèle. Nous y ajoutons la prise en compte des attentes dans le dialogue (effets projectifs des actes interlocutoires). Enfin nous proposons un mécanisme de résolution logique qui consiste à introduire plus systématiquement un nœud topique dans la SDRS (Discourse Represenlation Structure). Nous décrivons dans cet article les principes de traitement pragmatique mis en œuvre, et nous illustrons le processus d’analyse à l’aide d’un exemple.

pdf bib
Détection automatique d’actes de dialogue par l’utilisation d’indices multiniveaux
Sophie Rosset | Delphine Tribout

Ces dernières années, il y a eu de nombreux travaux portant sur l’utilisation d’actes de dialogue pour caractériser les dialogues homme-homme ou homme-machine. Cet article fait état de nos travaux sur la détection automatique d’actes de dialogue dans des corpus réels de dialogue homme-homme. Notre travail est fondé essentiellement sur deux hypothèses . (i) la position des mots et la classe sémantique du mot sont plus importants que les mots eux-mêmes pour identifier l’acte de dialogue et (ii) il y a une forte prédictivité dans la succession des actes de dialogues portés sur un même segment dialogique. Une approche de type Memory Based Learning a été utilisée pour la détection automatique des actes de dialogue. Le premier modèle n’utilise pas d’autres informations que celles contenus dans le tour de parole. Dans lex expériences suivantes, des historiques dialogiques de taille variables sont utilisés. Le taux d’erreur de détection d’actes de dialogue est d’environ 16% avec le premier modèle est descend avec une utilisation plus large de l’historique du dialogue à environ 14%.

pdf bib
Comment mesurer la couverture d’une ressource terminologique pour un corpus ?
Goritsa Ninova | Adeline Nazarenko | Thierry Hamon | Sylvie Szulman

Cet article propose une définition formelle de la notion de couverture lexicale. Celleci repose sur un ensemble de quatre métriques qui donnent une vue globale de l’adéquation d’une ressource lexicale à un corpus et permettent ainsi de guider le choix d’une ressource en fonction d’un corpus donné. Les métriques proposées sont testées dans le contexte de l’analyse de corpus spécialisés en génomique : 5 terminologies différentes sont confrontées à 4 corpus. La combinaison des valeurs obtenues permet de discerner différents types de relations entre ressources et corpus.

pdf bib
Construction automatique de classes de sélection distributionnelle
Guillaume Jacquet | Fabienne Venant

Cette étude se place dans le cadre général de la désambiguïsation automatique du sens d’un Verbe dans un énoncé donné. Notre méthode de désambiguïsation prend en compte la construction du Verbe, c’est-à-dire l’influence des éléments lexicaux et syntaxiques présents dans l’énoncé (cotexte). Nous cherchons maintenant à finaliser cette méthode en tenant compte des caractéristiques sémantiques du cotexte. Pour ce faire nous associons au corpus un espace distributionnel continu dans lequel nous construisons et Visualisons des classes distributionnelles. La singularité de ces classes est qu’elles sont calculées à la Volée. Elles dépendent donc non seulement du corpus mais aussi du contexte étudié. Nous présentons ici notre méthode de calcul de classes ainsi que les premiers résultats obtenus.

pdf bib
Sentiment Analysis for Issues Monitoring Using Linguistic Resources
Ecaterina Rascu | Kai Schirmer | Johann Haller

Sentiment analysis dealing with the identification and evaluation of opinions towards a topic, a company, or a product is an essential task within media analysis. It is used to study trends, determine the level of customer satisfaction, or warn immediately when unfavourable trends risk damaging the image of a company. In this paper we present an issues monitoring system which, besides text categorization, also performs an extensive sentiment analysis of online news and newsgroup postings. Input texts undergo a morpho-syntactic analysis, are indexed using a thesaurus and are categorized into user-specific classes. During sentiment analysis, sentiment expressions are identified and subsequently associated with the established topics. After presenting the various components of the system and the linguistic resources used, we describe in detail SentA, its sentiment analysis component, and evaluate its performance.

pdf bib
Parsing de l’oral: traiter les disfluences
Marie-Laure Guénot

Nous proposons une réflexion théorique sur la place d’un phénomène tel que celui des disfluences au sein d’une grammaire. Les descriptions fines qui en ont été données mènent à se demander quel statut accorder aux disfluences dans une théorie linguistique complète, tout en conservant une perspective globale de représentation, c’est-à-dire sans nuire à la cohérence et à l’homogénéité générale. Nous en introduisons une représentation formelle, à la suite de quoi nous proposons quelques mécanismes de parsing permettant de les traiter.

pdf bib
Description détaillée des subordonnées non dépendantes : le cas de “quand”
Christophe Benzitoun

De nombreux linguistes ont mis en évidence des cas de « subordonnées » non dépendantes dans de multiples langues dans le monde (Mithun, 2003 ; Haiman & Thompson (eds), 1988). Ce phénomène a aussi été relevé en français, notamment pour un « subordonnant » tel que parce que (Debaisieux, 2001 ; Ducrot et al., 1975). Nous nous proposons de décrire un cas de « subordonnée » en quand non dépendante et de le représenter dans le cadre formel de Gerdes & Kahane (à paraître).

pdf bib
Des arbres de dérivation aux forêts de dépendance : un chemin via les forêts partagées
Djamé Seddah | Bertrand Gaiffe

L’objectif de cet article est de montrer comment bâtir une structure de répresentation proche d’un graphe de dépendance à l’aide des deux structures de représentation canoniques fournies par les Grammaires d’Arbres Adjoints Lexicalisées . Pour illustrer cette approche, nous décrivons comment utiliser ces deux structures à partir d’une forêt partagée.

pdf bib
Evaluation des Modèles de Langage n-gram et n/m-multigram
Pierre Alain | Olivier Boeffard

Cet article présente une évaluation de modèles statistiques du langage menée sur la langue Française. Nous avons cherché à comparer la performance de modèles de langage exotiques par rapport aux modèles plus classiques de n-gramme à horizon fixe. Les expériences réalisées montrent que des modèles de n-gramme à horizon variable peuvent faire baisser de plus de 10% en moyenne la perplexité d’un modèle de n-gramme à horizon fixe. Les modèles de n/m-multigramme demandent une adaptation pour pouvoir être concurrentiels.

pdf bib
Y a-t-il une taille optimale pour les règles de successions intervenant dans l’étiquetage grammatical ? (Is there an optimal n for n-grams used in part-of-speech tagging?)
Fathi Debili | Emna Souissi

La quasi-totalité des étiqueteurs grammaticaux mettent en oeuvre des règles qui portent sur les successions ou collocations permises de deux ou trois catégories grammaticales. Leurs performances s’établissent à hauteur de 96% de mots correctement étiquetés, et à moins de 57% de phrases correctement étiquetées. Ces règles binaires et ternaires ne représentent qu’une fraction du total des règles de succession que l’on peut extraire à partir des phrases d’un corpus d’apprentissage, alors même que la majeure partie des phrases (plus de 98% d’entre elles) ont une taille supérieure à 3 mots. Cela signifie que la plupart des phrases sont analysées au moyen de règles reconstituées ou simulées à partir de règles plus courtes, ternaires en l’occurrence dans le meilleur des cas. Nous montrons que ces règles simulées sont majoritairement agrammaticales, et que l’avantage inférentiel qu’apporte le chaînage de règles courtes pour parer au manque d’apprentissage, plus marqué pour les règles plus longues, est largement neutralisé par la permissivité de ce processus dont toutes sortes de poids, scores ou probabilités ne réussissent pas à en hiérarchiser la production afin d’y distinguer le grammatical de l’agrammatical. Force est donc de reconsidérer les règles de taille supérieure à 3, lesquelles, il y a une trentaine d’années, avaient été d’emblée écartées pour des raisons essentiellement liées à la puissance des machines d’alors, et à l’insuffisance des corpus d’apprentissage. Mais si l’on admet qu’il faille désormais étendre la taille des règles de succession, la question se pose de savoir jusqu’à quelle limite, et pour quel bénéfice. Car l’on ne saurait non plus plaider pour une portée des règles aussi longue que les plus longues phrases auxquelles elles sont susceptibles d’être appliquées. Autrement dit, y a-t-il une taille optimale des règles qui soit suffisamment petite pour que leur apprentissage puisse converger, mais suffisamment longue pour que tout chaînage de telles règles pour embrasser les phrases de taille supérieure soit grammatical. La conséquence heureuse étant que poids, scores et probabilités ne seraient plus invoqués que pour choisir entre successions d’étiquettes toutes également grammaticales, et non pour éliminer en outre les successions agrammaticales. Cette taille semble exister. Nous montrons qu’au moyen d’algorithmes relativement simples l’on peut assez précisément la déterminer. Qu’elle se situe, compte tenu de nos corpus, aux alentours de 12 pour le français, de 10 pour l’arabe, et de 10 pour l’anglais. Qu’elle est donc en particulier inférieure à la taille moyenne des phrases, quelle que soit la langue considérée.

pdf bib
Acquisition et évaluation sur corpus de propriétés de sous-catégorisation syntaxique
Didier Bourigault | Cécile Frérot

Cette étude est menée dans le cadre du développement de l’analyseur syntaxique de corpus Syntex et porte sur la tâche de désambiguïsation des rattachements prépositionnels. Les données de sous-catégorisation syntaxique exploitées par Syntex pour la désambiguïsation se présentent sous la forme de probabilités de sous-catégorisation (que telle unité lexicale - verbe, nom ou adjectif - se construise avec telle préposition). Elles sont acquises automatiquement à partir d’un corpus de 200 millions de mots, étiqueté et partiellement analysé syntaxiquement. Pour évaluer ces données, nous utilisons 4 corpus de test de genres variés, sur lesquels nous avons annoté à la main plusieurs centaines de cas de rattachement prépositionnels ambigus. Nous testons plusieurs stratégies de désambiguïsation, une stratégie de base, une stratégie endogène qui exploite des propriétés de sous-catégorisation spécifiques acquises à partir du corpus en cours de traitement, une stratégie exogène qui exploite des propriétés de sous-catégorisation génériques acquises à partir du corpus de 200 millions de mots, et enfin une stratégie mixte qui utilisent les deux types de ressources. L’analyse des résultats montre que la stratégie mixte est la meilleure, et que les performances de l’analyseur sur la tâche de désambiguïsation des rattachements prépositionnels varient selon les corpus de 79.4 % à 87.2 %.

up

bib (full) Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

pdf bib
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Michèle Jardino

pdf bib
Induction de règles de correction pour l’étiquetage morphosyntaxique de la littérature de biologie en utilisant l’apprentissage actif
Ahmed Amrani | Yves Kodratoff | Oriane Matte-Tailliez

Dans le contexte de l’étiquetage morphosyntaxique des corpus de spécialité, nous proposons une approche inductive pour réduire les erreurs les plus difficiles et qui persistent après étiquetage par le système de Brill. Nous avons appliqué notre système sur deux types de confusions. La première confusion concerne un mot qui peut avoir les étiquettes ‘verbe au participe passé’, ‘verbe au passé’ ou ‘adjectif’. La deuxième confusion se produit entre un nom commun au pluriel et un verbe au présent, à la 3ème personne du singulier. A l’aide d’interface conviviale, l’expert corrige l’étiquette du mot ambigu. A partir des exemples annotés, nous induisons des règles de correction. Afin de réduire le coût d’annotation, nous avons utilisé l’apprentissage actif. La validation expérimentale a montré une amélioration de la précision de l’étiquetage. De plus, à partir de l’annotation du tiers du nombre d’exemples, le niveau de précision réalisé est équivalent à celui obtenu en annotant tous les exemples.

pdf bib
Application du métalangage de la BDéf au traitement formel de la polysémie
Lucie Barque | Alain Polguère

Cet article a pour objet le métalangage définitionnel de la base de données lexicale BDéf, plus précisément l’utilisation de ce métalangage dans la modélisation des structures polysémiques du français. La Bdéf encode sous forme de définitions lexicographiques les sens lexicaux d’un sous-ensemble représentatif du lexique du français parmi lequel on compte environ 500 unités polysémiques appartenant aux principales parties du discours. L’article comprend deux sections. La première présente le métalangage de la BDéf et le situe par rapport aux différents types de définitions lexicales, qu’elles soient ou non formelles, qu’elles visent ou non l’informatisation. La seconde section présente une application de la BDéf qui vise à terme à rendre compte de la polysémie régulière du français. On y présente, à partir d’un cas spécifique, la notion de patron de polysémie.

pdf bib
Apprentissage de relations prédicat-argument pour l’extraction d’information à partir de textes conversationnels
Narjès Boufaden | Guy Lapalme

Nous présentons les résultats de notre approche d’apprentissage de relations prédicat-argument dans le but de générer des patrons d’extraction pour des textes conversationnels. Notre approche s’effectue en trois étapes incluant la segmentation linguistique des textes pour définir des unités linguistiques à l’instar de la phrase pour les textes bien formés tels que les dépêches journalistiques. Cette étape prend en considération la dimension discursive importante dans ces types de textes. La deuxième étape effectue la résolution des anaphores pronominales en position de sujet. Cela tient compte d’une particularité importante des textes conversationnels : la pronominalisation du thème. Nous montrons que la résolution d’un sous ensemble d’anaphores pronominales améliore l’apprentissage des patrons d’extraction. La troisième utilise des modèles de Markov pour modéliser les séquences de classes de mots et leurs rôles pour un ensemble de relations données. Notre approche expérimentée sur des transcriptions de conversations téléphoniques dans le domaine de la recherche et sauvetage identifie les patrons d’extraction avec un F-score moyen de 73,75 %.

pdf bib
Un analyseur LFG efficace pour le français : SXLFG
Pierre Boullier | Benoît Sagot | Lionel Clément

Dans cet article, nous proposons un nouvel analyseur syntaxique, qui repose sur une variante du modèle Lexical-Functional Grammars (Grammaires Lexicales Fonctionnelles) ou LFG. Cet analyseur LFG accepte en entrée un treillis de mots et calcule ses structures fonctionnelles sur une forêt partagée. Nous présentons également les différentes techniques de rattrapage d’erreurs que nous avons mises en oeuvre. Puis nous évaluons cet analyseur sur une grammaire à large couverture du français dans le cadre d’une utilisation à grande échelle sur corpus variés. Nous montrons que cet analyseur est à la fois efficace et robuste.

pdf bib
Etiquetage morpho-syntaxique du français à base d’apprentissage supervisé
Julien Bourdaillet | Jean-Gabriel Ganascia

Nous présentons un étiqueteur morpho-syntaxique du français. Celui-ci utilise l’apprentissage supervisé à travers un modèle de Markov caché. Le modèle de langage est appris à partir d’un corpus étiqueté. Nous décrivons son fonctionnement et la méthode d’apprentissage. L’étiqueteur atteint un score de précision de 89 % avec un jeu d’étiquettes très riche. Nous présentons ensuite des résultats détaillés pour chaque classe grammaticale et étudions en particulier la reconnaissance des homographes.

pdf bib
Contextes multilingues alignés pour la désambiguïsation sémantique : une étude expérimentale
Boxing Chen | Meriam Haddara | Olivier Kraif | Grégoire Moreau de Montcheuil | Marc El-Bèze

Cet article s’intéresse a la désambiguïsation sémantique d’unités lexicales alignées a travers un corpus multilingue. Nous appliquons une méthode automatique non supervisée basée sur la comparaison de réseaux sémantiques, et nous dégageons un critère permettant de déterminer a priori si 2 unités alignées ont une chance de se désambiguïser mutuellement. Enfin, nous développons une méthode fondée sur un apprentissage a partir de contextes bilingues. En appliquant ce critère afin de déterminer pour quelles unités l’information traductionnelle doit être prise en compte, nous obtenons une amélioration des résultats.

pdf bib
Naviguer dans les textes pour apprendre
Javier Couto | Lita Ludnquist | Jean-Luc Minel

Dans cet article nous présentons un langage de navigation textuelle et son implantation dans la plate-forme Navitexte. Nous décrivons une application de ces principes de navigation dans un cadre d’apprentissage de la bonne formation des textes, destinée à des dans un cadre d’apprentissage de la bonne formation des textes, destinée à des étudiants apprenant le français langue étrangère.

pdf bib
Projection et monotonie dans un langage de représentation lexico-grammatical
Benoît Crabbé

Cet article apporte une méthode de développement grammatical pour la réalisation de grammaires d’arbres adjoints (TAG) de taille importante augmentées d’une dimension sémantique. La méthode que nous présentons s’exprime dans un langage informatique de représentation grammatical qui est déclaratif et monotone. Pour arriver au résultat, nous montrons comment tirer parti de la théorie de la projection dans le langage de représentation que nous utilisons. Par conséquent cet article justifie l’utilisation d’un langage monotone pour la représentation lexico-grammaticale.

pdf bib
Dialogue automatique et personnalité : méthodologie pour l’incarnation de traits humains
Florence Duclaye | Franck Panaget

Cet article introduit une méthodologie d’intégration de la personnalité dans un système de dialogue automatique, en vue de l’incarnation de personnages virtuels. Notion complexe non encore épuisée dans la littérature, la personnalité d’un individu peut s’illustrer de multiples manières possibles. Notre objectif consiste à présenter une méthode générique de prise en compte de la personnalité dans un système de dialogue par modélisation et exploitation des connaissances relatives à la personnalité de l’individu à incarner. Cet article présente les avantages et inconvénients de cette méthode en l’illustrant au travers de la stylistique des énoncés générés par le système.

pdf bib
Ritel : un système de dialogue homme-machine à domaine ouvert
Olivier Galibert | Gabriel Illouz | Sophie Rosset

L’objectif du projet RITEL est de réaliser un système de dialogue homme-machine permettant à un utilisateur de poser oralement des questions, et de dialoguer avec un système de recherche d’information généraliste (par exemple, chercher sur l’Internet “Qui est le Président du Sénat ?”) et d’en étudier les potentialités. Actuellement, la plateforme RITEL permet de collecter des corpus de dialogue homme-machine. Les utilisateurs peuvent parfois obtenir une réponse, de type factuel (Q : qui est le président de la France ; R : Jacques Chirac.). Cet article présente brièvement la plateforme développée, le corpus collecté ainsi que les questions que soulèvent un tel système et quelques unes des premières solutions envisagées.

pdf bib
Un système de génération automatique de dictionnaires linguistiques de l’arabe
Ahmed Haddad | Mounir Zrigui | Mohamed Ben Ahmed

L’objectif de cet article est la présentation d’un système de génération automatique de dictionnaires électroniques de la langue arabe classique, développé au sein du laboratoire RIADI (unité de Monastir). Ce système entre dans le cadre du projet “oreillodule”: un système embarqué de synthèse, traduction et reconnaissance de la parole arabe. Dans cet article, nous présenterons, les différentes étapes de réalisation, et notamment la génération automatique de ces dictionnaires se basant sur une théorie originale : les Conditions de Structures Morphématiques (CSM), et les matrices lexicales.

pdf bib
Segmentation de textes arabes basée sur l’analyse contextuelle des signes de ponctuations et de certaines particules
Lamia Hadrich Belguith | Leila Baccour | Mourad Ghassan

Nous proposons dans cet article une approche de segmentation de textes arabes non voyellés basée sur une analyse contextuelle des signes de ponctuations et de certaines particules, tels que les conjonctions de coordination. Nous présentons ensuite notre système STAr, un segmenteur de textes arabes basé sur l’approche proposée. STAr accepte en entrée un texte arabe en format txt et génère en sortie un texte segmenté en paragraphes et en phrases.

pdf bib
A Descriptive Characterization of Multicomponent Tree Adjoining Grammars
Laura Kallmeyer

Multicomponent Tree Adjoining Grammars (MCTAG) is a formalism that has been shown to be useful for many natural language applications. The definition of MCTAG however is problematic since it refers to the process of the derivation itself: a simultaneity constraint must be respected concerning the way the members of the elementary tree sets are added. Looking only at the result of a derivation (i.e., the derived tree and the derivation tree), this simultaneity is no longer visible and therefore cannot be checked. I.e., this way of characterizing MCTAG does not allow to abstract away from the concrete order of derivation. Therefore, in this paper, we propose an alternative definition of MCTAG that characterizes the trees in the tree language of an MCTAG via the properties of the derivation trees the MCTAG licences.

pdf bib
Approches en corpus pour la traduction : le cas MÉTÉO
Philippe Langlais | Thomas Leplus | Simona Gandrabur | Guy Lapalme

La traduction automatique (TA) attire depuis plusieurs années l’intérêt d’un nombre grandissant de chercheurs. De nombreuses approches sont proposées et plusieurs campagnes d’évaluation rythment les avancées faites. La tâche de traduction à laquelle les participants de ces campagnes se prêtent consiste presque invariablement à traduire des articles journalistiques d’une langue étrangère vers l’anglais; tâche qui peut sembler artificielle. Dans cette étude, nous nous intéressons à savoir ce que différentes approches basées sur les corpus peuvent faire sur une tâche réelle. Nous avons reconstruit à cet effet l’un des plus grands succès de la TA: le système MÉTÉO. Nous montrons qu’une combinaison de mémoire de traduction et d’approches statistiques permet d’obtenir des résultats comparables à celles du système MÉTÉO, tout en offrant un cycle de développement plus court et de plus grandes possibilités d’ajustements.

pdf bib
Simplification interactive pour la production de textes adaptés aux personnes souffrant de troubles de la compréhension
Aurélien Max

Cet article traite du problème de la compréhensibilité des textes et en particulier du besoin de simplifier la complexité syntaxique des phrases pour des lecteurs souffrant de troubles de la compréhension. Nous présentons une approche à base de règles de simplification développées manuellement et son intégration dans un traitement de texte. Cette intégration permet la validation interactive de simplifications candidates produites par le système, et lie la tâche de création de texte simplifié à celle de rédaction.

pdf bib
Indexation automatique de ressources de santé à l’aide de paires de descripteurs MeSH
Aurélie Névéol | Alexandrina Rogozan | Stéfan Darmoni

Depuis quelques années, médecins et documentalistes doivent faire face à une demande croissante dans le domaine du codage médico-économique et de l’indexation des diverses sources d’information disponibles dans le domaine de la santé. Il est donc nécessaire de développer des outils d’indexation automatique qui réduisent les délais d’indexation et facilitent l’accès aux ressources médicales. Nous proposons deux méthodes d’indexation automatique de ressources de santé à l’aide de paires de descripteurs MeSH. La combinaison de ces deux méthodes permet d’optimiser les résulats en exploitant la complémentarité des approches. Les performances obtenues sont équivalentes à celles des outils de la littérature pour une indexation à l’aide de descripteurs seuls.

pdf bib
Réseau bayesien pour un modèle d’utilisateur et un module de compréhension pour l’optimisation des systèmes de dialogues
Olivier Pietquin

Dans cet article, un environnement modulaire pour la simulation automatique de dialogues homme-machine est proposé. Cet environnement comprend notamment un modèle d’utilisateur consistant dirigé par le but et un module de simulation de compréhension de parole. Un réseau bayésien est à la base de ces deux modèles et selon les paramètres utilisés, il peut générer un comportement d’utilisateur cohérent ou servir de classificateur de concepts. L’environnement a été utilisé dans le contexte de l’optimisation de stratégies de dialogue sur une tâche simple de remplissage de formulaire et les résultats montrent qu’il est alors possible d’identifier certains dialogues problématiques du point de vue de la compréhension.

pdf bib
Correction Automatique en temps réél, contraintes, méthodes et voies de recherche
Roger Rainero

Cet article expose un cas concret d’utilisation d’une grammaire de contraintes. Le produit qui les applique a été commercialisé en 2003 pour corriger automatiquement et en temps réel les fautes d’accord présentes dans les sous-titres des retransmissions en direct des débats du Sénat du Canada. Avant la mise en place du système, le taux moyen de fautes était de l’ordre de 7 pour 100 mots. Depuis la mise en service, le taux d’erreurs a chuté à 1,7 %. Nous expliquons dans ce qui suit les principaux atouts des grammaires de contraintes dans le cas particulier des traitements temps réel, et plus généralement pour toutes les applications qui nécessitent une analyse au fur et à mesure du discours (c.-à-d. sans attendre la fin des phrases).

pdf bib
Les Méta-RCG: description et mise en oeuvre
Benoît Sagot

Nous présentons dans cet article un nouveau formalisme linguistique qui repose sur les Grammaires à Concaténation d’Intervalles (RCG), appelé Méta-RCG. Nous exposons tout d’abord pourquoi la non-linéarité permet une représentation adéquate des phénomènes linguistiques, et en particulier de l’interaction entre les différents niveaux de description. Puis nous présentons les Méta-RCG et les concepts linguistiques supplémentaires qu’elles mettent en oeuvre, tout en restant convertibles en RCG classiques. Nous montrons que les analyses classiques (constituants, dépendances, topologie, sémantique prédicat-arguments) peuvent être obtenues par projection partielle d’une analyse Méta-RCG complète. Enfin, nous décrivons la grammaire du français que nous développons dans ce nouveau formalisme et l’analyseur efficace qui en découle. Nous illustrons alors la notion de projection partielle sur un exemple.

pdf bib
Pauses and punctuation marks in Brazilian Portuguese read speech
Izabel Christine Seara | Fernando Pacheco | Rui Seara | Sandra Kafka | Rui Seara | Simone Klein

In this paper we assess pause effects corresponding to comma, semicolon, colon and the ones that are not related to any punctuation marks, all of them within sentences. Thus, through the analysis of a corpus of approximately 17 hours of recording, carried out by a female professional speaker (native) of the Brazilian Portuguese language, we observe a large proportion of pauses without punctuation (61.3%). Besides, our data reinforce the presence of topic-comment structures in reading. The results here presented with respect to pause and punctuation are consistent with several studies about this theme.

pdf bib
Segmentation thématique par chaînes lexicales pondérées
Laurianne Sitbon | Patrice Bellot

Cet article propose une méthode innovante et efficace pour segmenter un texte en parties thématiquement cohérentes, en utilisant des chaînes lexicales pondérées. Les chaînes lexicales sont construites en fonction de hiatus variables, ou bien sans hiatus, ou encore pondérées en fonction de la densité des occurrences du terme dans la chaîne. D’autre part, nous avons constaté que la prise en compte du repérage d’entités nommées dans la chaîne de traitement, du moins sans résolution des anaphores, n’améliore pas significativement les performances. Enfin, la qualité de la segmentation proposée est stable sur différentes thématiques, ce qui montre une indépendance par rapport au type de document.

pdf bib
Une plateforme pour l’acquisition, la maintenance et la validation de ressources lexicales
Tristan Vanrullen | Philippe Blache | Cristel Portes | Stéphane Rauzy | Jean-François Maeyhieux

Nous présentons une plateforme de développement de lexique offrant une base lexicale accompagnée d’un certain nombre d’outils de maintenance et d’utilisation. Cette base, qui comporte aujourd’hui 440.000 formes du Français contemporain, est destinée à être diffusée et remise à jour régulièrement. Nous exposons d’abord les outils et les techniques employées pour sa constitution et son enrichissement, notamment la technique de calcul des fréquences lexicales par catégorie morphosyntaxique. Nous décrivons ensuite différentes approches pour constituer un sous-lexique de taille réduite, dont la particularité est de couvrir plus de 90% de l’usage. Un tel lexique noyau offre en outre la possibilité d’être réellement complété manuellement avec des informations sémantiques, de valence, pragmatiques etc.

pdf bib
La plate-forme LinguaStream : un outil d’exploration linguistique sur corpus
Antoine Widlöcher | Frédérik Bilhaut

À travers la présentation de la plate-forme LinguaStream, nous présentons certains principes méthodologiques et différents modèles d’analyse pouvant permettre l’articulation de traitements sur corpus. Nous envisageons en particulier les besoins nés de perspectives émergentes en TAL telles que l’analyse du discours.

up

bib (full) Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

pdf bib
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Nicolas Hernandez | Guillaume Pitel

pdf bib
How semantic is Latent Semantic Analysis?
Tonio Wandmacher

In the past decade, Latent Semantic Analysis (LSA) was used in many NLP approaches with sometimes remarkable success. However, its abilities to express semantic relatedness were not yet systematically investigated. This is the aim of our work, where LSA is applied to a general text corpus (German newspaper), and for a test vocabulary, the lexical relations between a test word and its closest neighbours are analysed. These results are compared to the results from a collocation analysis.

pdf bib
Quels types de connaissance sémantique pour Questions-Réponses ?
Vincent Barbier

Les systèmes de Questions Réponse ont besoin de connaissances sémantiques pour trouver dans les documents des termes susceptibles d’être des reformulations des termes de la question. Cependant, l’utilisation de ressources sémantiques peut apporter un bruit important et altérer la précision du système. ne fournit qu’une partie des reformulations possibles. Cet article présente un cadre d’évaluation pour les ressources sémantiques dans les systèmes de question-réponse. Il décrit la fabrication semi-automatique d’un corpus de questions et de réponses destiné à étudier les reformulations présentes entre termes de la question et termes de la réponse. Il étudie la fréquence et la fiabilité des reformulations extraites de l’ontologie WordNet.

pdf bib
Une plate-forme logicielle dédiée à la cartographie thématique de corpus
Thibault Roy

Cet article présente les principes de fonctionnement et les intérêts d’une plate-forme logicielle centrée sur un utilisateur ou un groupe d’utilisateurs et dédiée à la visualisation de propriétés thématiques d’ensembles de documents électroniques. Cette plate-forme, appelée ProxiDocs, permet de dresser des représentations graphiques (des cartes) d’un ensemble de textes à partir de thèmes choisis et définis par un utilisateur ou un groupe d’utilisateurs. Ces cartes sont interactives et permettent de visualiser les proximités et les différences thématiques entre textes composant le corpus étudié. Selon le type d’analyse souhaitée par l’utilisateur, ces cartes peuvent également s’animer afin de représenter les changements thématiques d’un ensemble de textes au fil du temps.

pdf bib
Segmentation morphologique à partir de corpus
Delphine Bernhard

Nous décrivons une méthode de segmentation morphologique automatique. L’algorithme utilise uniquement une liste des mots d’un corpus et tire parti des probabilités conditionnelles observées entre les sous-chaînes extraites de ce lexique. La méthode est également fondée sur l’utilisation de graphes d’alignement de segments de mots. Le résultat est un découpage de chaque mot sous la forme (préfixe*) + base + (suffixe*). Nous évaluons la pertinence des familles morphologiques découvertes par l’algorithme sur un corpus de textes médicaux français contenant des mots à la structure morphologique complexe.

pdf bib
Traduction des règles de construction des mots pour résoudre l’incomplétude lexicale en traduction automatique - Etude de cas
Bruno Cartoni

Cet article propose d’exploiter les similitudes constructionnelles de deux langues morphologiquement proches (le français et l’italien), pour créer des règles de construction des mots capables de déconstruire un néologisme construit de la langue source et générer de manière similaire un néologisme construit dans la langue cible. Nous commençons par présenter diverses motivations à cette méthode, puis détaillons une expérience pour laquelle plusieurs règles de transfert ont été créées et appliquées à un ensemble de néologismes construits.

pdf bib
A la découverte de la polysémie des spécificités du français technique
Ann Bertels

Cet article décrit l’analyse sémantique des spécificités dans le domaine technique des machines-outils pour l’usinage des métaux. Le but de cette étude est de vérifier si et dans quelle mesure les spécificités dans ce domaine sont monosémiques ou polysémiques. Les spécificités (situées dans un continuum de spécificité) seront identifiées avec la KeyWords Method en comparant le corpus d’analyse à un corpus de référence. Elles feront ensuite l’objet d’une analyse sémantique automatisée à partir du recouvrement des cooccurrences des cooccurrences, afin d’établir le continuum de monosémie. Les travaux de recherche étant en cours, nous présenterons des résultats préliminaires de cette double analyse.

pdf bib
Système AlALeR - Alignement au niveau phrastique des textes parallèles français-japonais
Yayoi Nakamura-Delloye

Le présent article décrit le Système AlALeR (Système d’Alignement Autonome, Léger et Robuste). Capable d’aligner au niveau phrastique un texte en français et un texte en japonais, le Système AlALeR ne recourt cependant à aucun moyen extérieur tel qu’un analyseur morphologique ou des dictionnaires, au contraire des méthodes existantes. Il est caractérisé par son analyse morphologique partielle mettant à profit des particularités du système d’écriture japonais et par la transcription des mots emprunts, à l’aide d’un transducteur.

pdf bib
Acquisition semi-automatique de relations lexicales bilingues (français-anglais) à partir du Web
Stéphanie Léon | Chrystel Millon

Cet article présente une méthode d’acquisition semi-automatique de relations lexicales bilingues (français-anglais) faisant appel à un processus de validation sur le Web. Notre approche consiste d’abord à extraire automatiquement des relations lexicales françaises. Nous générons ensuite leurs traductions potentielles grâce à un dictionnaire électronique. Ces traductions sont enfin automatiquement filtrées à partir de requêtes lancées sur le moteur de recherche Google. Notre évaluation sur 10 mots français très polysémiques montre que le Web permet de constituer ou compléter des bases de données lexicales multilingues, encore trop rares, mais dont l’utilité est pourtant primordiale pour de nombreuses applications, dont la traduction automatique.

pdf bib
Linguistic representation of Finnish in the medical domain spoken language translation system
Marianne Santaholma

This paper describes the development of Finnish linguistic resources for use in MedSLT, an Open Source medical domain speech-to-speech translation system. The paper describes the collection of medical Finnish corpora, the creation of a Finnish grammar by adapting the original English grammar, the composition of a domain specific Finnish lexicon and the definition of interlingua to Finnish mapping rules for multilingual translation. It is shown that Finnish can be effectively introduced into the existing MedSLT framework and that despite the differences between English and Finnish, the Finnish grammar can be created by manual adaptation from the original English grammar. Regarding further development, the initial evaluation results of English-Finnish speech-to-speech translation are encouraging.

pdf bib
Constitution d’un corpus de français tchaté
Achille Falaise

Nous présentons dans cet article un corpus de français tchaté, destiné à l’étude de la langue du tchat. Ce corpus, collecté et encodé automatiquement, est remarquable avant tout par son étendue, puisqu’il couvre un total de 4 millions de messages sur 105 canaux, hétérogènes sur les plans thématique et pragmatique. Son codage simple ne sera toutefois pas satisfaisant pour tous les usages. Il est disponible sur un site Internet, et consultable grâce à une interface web.

pdf bib
Étude de quelques problèmes de phonétisation dans un système de synthèse de la parole à partir de SMS
Rémi Bove

Cet article présente une étude dont l’objectif était d’améliorer la phonétisation d’un système de synthèse vocale de SMS en ce qui concerne trois types de problèmes : l’écriture rébus (chiffres et lettres utilisés pour leur valeur phonique), les abréviations sous forme de squelettes consonantiques et les agglutinations (déterminants ou pronoms collés graphiquement au mot qui suit). Notre approche se base sur l’analyse d’un corpus de SMS, à partir duquel nous avons extrait des listes de formes permettant de compléter les lexiques du système, et mis au point de nouvelles règles pour les grammaires internes. Les modifications effectuées apportent une amélioration substantielle du système, bien qu’il reste, évidemment, de nombreuses autres classes de problèmes à traiter.

up

bib (full) Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)

pdf bib
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)
Nicolas Hernandez | Guillaume Pitel

pdf bib
Synchronisation syntaxe sémantique, des grammaires minimalistes catégorielles (GMC) aux Constraint Languages for Lambda Structures (CLLS)
Maxime Amblard

Ces travaux se basent sur l’approche computationelle et logique de Ed Stabler (?), qui donne une formalisation sous forme de grammaire du programme minimaliste de Noam Chomsky (?). La question que je veux aborder est comment, à partir d’une analyse syntaxique retrouver la forme prédicative de l’énoncé. Pour cela, il faut mettre en place une interface entre syntaxe et sémantique. C’est ce que je propose en utilisant les Grammaires Minimalistes Catégorielles (GMC) extension des GM vers le calcul de Lambeck. Ce nouveau formalisme permet une synchronisation simple avec le lambda-calcul. Parmi les questions fréquemment rencontrées dans le traitement des langues naturelles, j’interroge la performance de cette interface pour la résolution des problèmes de portée des quantificateurs. Je montre pourquoi et comment il faut utiliser un lambda-calcul plus élaboré pour obtenir les différentes lectures, en utilisant Constraint Languages for Lambda Structures -CLLS.

pdf bib
Recherche d’information en langue arabe : influence des paramètres linguistiques et de pondération en LSA
Siham Boulaknadel | Fadoua Ataa-Allah

Nous nous intéressons à la recherche d’information en langue arabe en utilisant le modèle de l’analyse sémantique latente (LSA). Nous proposons dans cet article de montrer que le traitement linguistique et la pondération des unités lexicales influent sur la performance de la LSA pour quatre cas d’études : le premier avec un simple prétraitement des corpus; le deuxième en utilisant un anti-dictionnaire; le troisième avec un racineur de l’arabe ; le quatrième où nous avons combiné l’anti-dictionnaire et le racineur. Globalement les résultats de nos expérimentations montrent que les traitements linguistiques ainsi que la pondération des unités lexicales utilisés améliorent la performance de LSA.

pdf bib
Etiquetage morpho-syntaxique des textes arabes par modèle de Markov caché
Abdelhamid El Jihad | Abdellah Yousfi

L’étiquetage des textes est un outil très important pour le traitement automatique de langage, il est utilisé dans plusieurs applications par exemple l’analyse morphologique et syntaxique des textes, l’indexation, la recherche documentaire, la voyellation pour la langue arabe, les modèles de langage probabilistes (modèles n-classes), etc. Dans cet article nous avons élaboré un système d’étiquetage morpho-syntaxique de la langue arabe en utilisant les modèles de Markov cachés, et ceci pour construire un corpus de référence étiqueté et représentant les principales difficultés grammaticales rencontrées en langue arabe générale. Pour l’estimation des paramètres de ce modèle, nous avons utilisé un corpus d’apprentissage étiqueté manuellement en utilisant un jeu de 52 étiquettes de nature morpho-syntaxique. Ensuite on procède à une amélioration du système grâce à la procédure de réestimation des paramètres de ce modèle.

pdf bib
Identification des composants temporels pour la représentation des dépêches épidémiologiques
Manal El Zant | Liliane Pellegrin | Hervé Chaudet | Michel Roux

Dans le cadre du projet EpidémIA qui vise à la construction d’un système d’aide à la décision pour assister l’utilisateur dans son activité de gestion des risques sanitaires, un travail préalable sur la compositionalité des évènements (STEEL) nous a permis d’orienter notre travail dans le domaine de la localisation d’information spatio-temporelle. Nous avons construit des graphes de transducteurs pour identifier les informations temporelles sur un corpus de 100 dépêches de la langue anglaise de ProMed. Nous avons utilisé le système d’extraction d’information INTEX pour la construction de ces transducteurs. Les résultats obtenus présentent une efficacité de ces graphes pour l’identification des données temporelles.

pdf bib
Utilisation de la Linguistique Systémique Fonctionnelle pour la détection des noms de personnes ambigus
Thomas Heitz

Dans cet article, nous nous proposons de construire un lexique étiqueté selon les principes de la Linguistique Systémique Fonctionnelle (LSF) et de l’appliquer à la détection des noms de personnes ambigus dans les textes. Nous ne faisons pas d’analyse complète mais testons plutôt si certaines caractéristiques de la LSF peuvent permettre de compléter les modèles linguistiques actuellement utilisés pour la détection des entités nommées. Nous souhaitons ainsi apporter une contribution à l’application du formalisme LSF dans l’analyse automatique de textes après son application déjà éprouvée à la génération de textes.

pdf bib
Durée des consonnes géminées en parole arabe : mesures et comparaison
Mohamed Khairallah Khouja | Mounir Zrigui

Dans ce papier, nous présentons les résultats d’une étude expérimentale de la durée des consonnes géminées de l’arabe. Nous visons à déterminer la durée, pour une séquence VCCV, de la consonne géminée CC ainsi que de la voyelle qui la précède. Nous comparons ces valeurs à celles mesurées pour une séquence VCV. Les résultats ont prouvé que la durée de la consonne simple était sensiblement différente de celle géminée, ainsi que la durée de la voyelle précédant la consonne. A la base, ce travail est entrepris dans un but d’étudier l’utilisation des durées de phonèmes comme une source d’information pour optimiser un système de reconnaissance, donc introduire des modèles explicites de durée des phonèmes, et mettre en application ces modèles comme partie du modèle acoustique du système de reconnaissance.

pdf bib
Vers une utilisation du TAL dans la description pédagogique de textes dans l’enseignement des langues
Mathieu Loiseau

Alors que de nombreux travaux portent actuellement sur la linguistique de corpus, l’utilisation de textes authentiques en classe de langue, ou de corpus dans l’enseignement des langues (via concordanciers), quasiment aucun travail n’a été réalisé en vue de la réalisation de bases de textes à l’usage des enseignants de langue, indexées en fonction de critères relevant de la problématique de la didactique des langues. Dans le cadre de cet article, nous proposons de préciser cette notion d’indexation pédagogique, puis de présenter les principaux standards de description de ressources pédagogiques existants, avant de montrer l’inadéquation de ces standards à la description de textes dans l’optique de leur utilisation dans l’enseignement des langues. Enfin nous en aborderons les conséquences relativement à la réalisation de la base.

pdf bib
Une méthode pour la classification de signal de parole sur la caractéristique de nasalisation
Pierre-Sylvain Luquet

Nous exposons ici une méthode permettant d’étudier la nature d’un signal de parole dans le temps. Plus précisément, nous nous intéressons à la caractéristique de nasalisation du signal. Ainsi nous cherchons à savoir si à un instant t le signal est nasalisé ou oralisé. Nous procédons par classification à l’aide d’un réseau de neurones type perceptron multi-couches, après une phase d’apprentissage supervisée. La classification, après segmentation du signal en fenêtres, nous permet d’associer à chaque fenêtre de signal une étiquette renseignant sur la nature du signal.

pdf bib
De la linguistique aux statistiques pour indexer des documents dans un référentiel métier
Wilfried Njomgue Sado | Dominique Fontaine

Cet article présente une méthode d’indexation automatique de documents basée sur une approche linguistique et statistique. Cette dernière est une combinaison séquentielle de l’analyse linguistique du document à indexer par l’extraction des termes significatifs du document et de l’analyse statistique par la décomposition en valeurs singulières des mots composant le document. La pondération des termes tire avantage de leur contexte local, par rapport au document, global, par rapport à la base de données, et de leur position par rapport aux autres termes, les co-occurrences. Le système d’indexation présenté fait des propositions d’affectations du document à un référentiel métier dont les thèmes sont prédéfinis. Nous présentons les résultats de l’expérimentation de ce système menée sur un corpus des pôles métiers de la société Suez-Environnement.

pdf bib
Vers un Système d’écriture Informatique Amazighe :Méthodes et développements
Ali Rachidi | Driss Mammass

L’intégration des technologies de l’information et de communication (TIC) à l’apprentissage de la langue Amazighe est absolument nécessaire pour qu’elle ait droit de cité plein et entier sur le Web et dans le monde informatisé. Nous présentons quelques réflexions sur les stratégies et méthodes d’informatisation de l’amazighe qui est une langue peu dotée informatiquement. Ces réflexions visent surtout l’optimisation de l’effort d’informatisation. En effet, les méthodes proposées tiennent en compte non seulement l’alphabet proposé par l’IRCAM1 et confirmée par l’ISO (format Unicode) le 21 juin 2004 (IRCAM, 2004 a) mais aussi le contexte francophone des populations berbères.

pdf bib
Un système de lissage linéaire pour la synthèse de la parole arabe : Discussion des résultats obtenus
Tahar Saidane | Mounir Zrigui | Mohamed Ben Ahmed

Notre article s’intègre dans le cadre du projet intitulé “Oréodule” : un système embarqué temps réel de reconnaissance, de traduction et de synthèse de la parole. L’objet de notre intérêt dans cet article est la présentation de notre système de synthèse hybride de la parole arabe. Nous présenterons, dans ce papier, les différents modules et les différents choix techniques de notre système de synthèse hybride par concaténation de polyphèmes. Nous détaillerons également les règles de transcription et leurs effets sur le traitement linguistique, les règles de syllabation et leurs impacts sur le coût (temps et difficulté) de réalisation du module acoustique et nous poursuivrons par l’exposé de nos choix au niveau du module de concaténation. Nous décrirons le module de lissage, un traitement acoustique, post concaténation, nécessaire à l’amélioration de la qualité de la voix synthétisée. Enfin, nous présenterons les résultats de l’étude statistique de compréhension, réalisée sur un corpus.

pdf bib
Clustering Web Pages to Identify Emerging Textual Patterns
Marina Santini

The Web has triggered many adjustments in many fields. It also has had a strong impact on the genre repertoire. Novel genres have already emerged, e.g. blog and FAQs. Presumably, other new genres are still in formation, because the Web is still fluid and in constant change. In this paper we present an experiment that explores the possibility of automatically detecting the emerging textual patterns that are slowly taking shape on the Web. Emerging textual patterns can develop into novel Web genres or novel text types in the near future. The experimental set up includes a collection of unclassified web pages, two sets of features and the use of cluster analysis. Results are encouraging and deserve further investigation.

pdf bib
Memory-based-Learning et Base de règles pour un Etiqueteur du Texte Arabe
Yamina Tlili-Guiassa

Jusqu’a présent il n’y a pas de système automatique complet pour l’étiquetage du texte arabe. Les méthodes qu’elles soient basées sur des règles explicites ou sur des calculs statistiques, ont été développées pour pallier au problème de l’ambiguïté lexicale. Celles-ci introduisent des informations sur le contexte immédiat des mots, mais font l’impasse sur les exceptions qui échappent aux traitements. L’apparition des méthodes Memory-Based Learning(MBL) a permis l’exploitation automatique de la similarité de l’information contenue dans de grandes masses de textes et , en cas d’anomalie, permet de déduire la catégorie la plus probable dans un contexte donné, sans que le linguiste ait à formuler des règles explicites. Ce papier qui présente une approche hybride combine les méthodes à base de règles et MBL afin d’optimiser la performance de l’étiqueteur. Les résultats ainsi obtenus, présentés en section 6, sont satisfaisants et l’ objectif recherché est atteint.

pdf bib
Cent mille milliards de poèmes et combien de sens? Une étude d’analyse potentielle
Florentina Vasilescu Armaselu

A partir du concept de cohésion comme mesure de l’unité du texte et du modèle oulipien de la littérature par contraintes, notre étude propose une méthode d’analyse potentielle sur ordinateur dans le cas des Cent mille milliards des poèmes. En s’appuyant sur un ensemble de contraintes initiales, notre programme serait capable d’analyser tous les textes potentiels produits par la machine en utilisant ces contraintes.

pdf bib
Analyse informatique du roman proustien “Du coté de chez Swann”
Katia Zellagui

Dans le cadre du développement des environnements d’analyse linguistique, d’étiquetage de corpus et d’analyse statistique afin de traiter des corpus de grande taille, nous proposons de mettre au point des procédures nouvelles d’étiquetage morpho-syntaxique et sémantique. Nous présentons un ensemble de ressources linguistiques - dictionnaires et grammaires - dans le but d’étiqueter entièrement le roman proustien : « Du côté de chez Swann ». Notre recherche avance deux atouts majeurs : la précision des étiquettes attribuées aux formes linguistiques du texte ; et le repérage et étiquetage exhaustifs des mots composés.

pdf bib
Un étiqueteur sémantique des énoncés en langue arabe
Anis Zouaghi | Mounir Zrigui | Mohamed Ben Ahmed

Notre article s’intègre dans le cadre du projet intitulé Oréodule: un système de reconnaissance, de traduction et de synthèse de la parole spontanée. L’objectif de cet article est de présenter un modèle d’étiquetage probabiliste, selon une approche componentielle et sélective. Cette approche ne considère que les éléments de l’énoncé porteurs de sens. La signification de chaque mot est représentée par un ensemble de traits sémantiques Ts. Ce modèle participe au choix des Ts candidats lors du décodage sémantique d’un énoncé.