pdf
bib
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Frédéric Béchet
|
Tristan Vanrullen
pdf
bib
abs
Système de Question Réponse : apport de l’analyse syntaxique lors de l’extraction de la réponse
Anne-Laure Ligozat
Dans cet article, nous présentons le système de Question Réponse QALC, et nous nous intéressons tout particulièrement à l’extraction de la réponse. Un appariement question-réponse fondé sur les relations syntaxiques a été développé, afin d’améliorer les performances du système. Un projet de génération de réponses à partir de plusieurs documents est également discuté.
pdf
bib
abs
Acquisition de relations lexicales désambiguïsées à partir du Web
Chrystel Millon
Nous montrons dans cet article qu’un pré-étiquetage des usages des mots par un algorithme de désambiguïsation tel qu’HyperLex (Véronis, 2003, 2004) permet d’obtenir des relations lexicales (du type NOM-ADJECTIF, NOM de NOM, NOM-VERBE) beaucoup plus exploitables, parce qu’elles-mêmes catégorisées en fonction des usages. De plus, cette technique permet d’obtenir des relations pour des usages très peu fréquents, alors qu’une extraction indifférenciée « noie » ces relations au milieu de celles correspondant aux usages les plus fréquents. Nous avons conduit une évaluation sur un corpus de plusieurs milliers de pages Web comportant l’un des 10 mots-cibles très polysémiques choisis pour cette expérience, et nous montrons que la précision obtenue est très bonne, avec un rappel honorable, suffisant en tout cas pour de nombreuses applications. L’analyse des erreurs ouvre des perspectives d’améliorations pour la suite de notre travail de thèse.
pdf
bib
abs
Indexation automatique de ressources de santé à l’aide d’un vocabulaire contrôlé
Aurélie Névéol
Nous présentons ici le système d’indexation automatique actuellement en cours de développement dans l’équipe CISMeF afin d’aider les documentalistes lors de l’indexation de ressources de santé. Nous détaillons l’architecture du système pour l’extraction de mots clés MeSH, et présentons les résultats d’une première évaluation. La stratégie d’indexation choisie atteint une précision comparable à celle des systèmes existants. De plus, elle permet d’extraire des paires mot clé/qualificatif, et non des termes isolés, ce qui constitue une indexation beaucoup plus fine. Les travaux en cours s’attachent à étendre la couverture des dictionnaires, et des tests à plus grande échelle sont envisagés afin de valider le système et d’évaluer sa valeur ajoutée dans le travail quotidien des documentalistes.
pdf
bib
abs
Appariement bilingue de mots par propagation syntaxique à partir de corpus français/anglais alignés
Sylwia Ozdowska
Nous présentons une méthode d’appariement de mots, à partir de corpus français/anglais alignés, qui s’appuie sur l’analyse syntaxique en dépendance des phrases. Tout d’abord, les mots sont appariés à un niveau global grâce au calcul des fréquences de cooccurrence dans des phrases alignées. Ces mots constituent les couples amorces qui servent de point de départ à la propagation des liens d’appariement à l’aide des différentes relations de dépendance identifiées par un analyseur syntaxique dans chacune des deux langues. Pour le moment, cette méthode dite d’appariement local traite majoritairement des cas de parallélisme, c’est-à-dire des cas où les relations syntaxiques sont identiques dans les deux langues et les mots appariés de même catégorie. Elle offre un taux de réussite de 95,4% toutes relations confondues.
pdf
bib
abs
Quelques principes pour une grammaire multimodale non-modulaire du français
Marie-Laure Guénot
|
Emmanuel Bellengier
Dans cet article, nous introduisons une approche de la représentation et de l’analyse des discours multimodaux, basée sur un traitement unimodulaire par contraintes. Le but de cet article est de présenter (i) un système de représentation des données et (ii) une méthode d’analyse, permettant une interaction simplifiée entre les différentes modalités de communication. L’avantage de cette méthode est qu’elle permet la prise en compte rigoureuse d’informations communicatives de natures diverses en un traitement unique, grâce à une représentation homogène des objets, de leurs relations, et de leur méthode d’analyse, selon le modèle des Grammaires de Propriétés.
pdf
bib
abs
L’annotation syntaxique de corpus oraux constitue-t-elle un problème spécifique ?
Christophe Benzitoun
Dans cet article, nous présentons une typologie des phénomènes qui posent problème pour l’annotation syntaxique de corpus oraux. Nous montrons également que ces phénomènes, même s’ils y sont d’une fréquence moindre, sont loin d’être absents à l’écrit (ils peuvent même être tout à fait significatifs dans certains corpus : e-mails, chats, SMS...), et que leur prise en compte peut améliorer l’annotation et fournir un cadre intégré pour l’oral et l’écrit.
pdf
bib
abs
Automates lexicaux avec structure de traits
Olivier Blanc
|
Anne Dister
Nous présentons les automates lexicaux avec structure de traits, une extension du modèle des automates finis sur le mots dans lesquels les transitions sont étiquetées par des motifs qui sélectionnent un sous-ensemble des mots étiquetés en fonction de leurs traits positionnés. Nous montrons l’adéquation de ce modèle avec les ressources linguistiques dont nous disposons et nous exposons les grandes lignes de nos méthodes pour effectuer des opérations telles que la déterminisation, l’intersection ou la complémentation sur ces objets. Nous terminons en présentant une application concrète de ces méthodes pour la levée d’ambiguïtés lexicales par intersection d’automates à l’aide de contraintes locales.
pdf
bib
abs
Géométriser le sens
Fabienne Venant
Les recherches en sémantique lexicale s’appuient de plus en plus sur des ressources électroniques de grande taille (dictionnaires informatisés, corpus, ontologies) à partir desquelles on peut obtenir diverses relations sémantiques entre unités lexicales. Ces relations sont naturellement modélisées par des graphes. Bien qu’ils décrivent des phénomènes lexicaux très différents, ces graphes ont en commun des caractéristiques bien particulières. On dit qu’ils sont de type petit monde. Nous voulons mener une étude théorique mathématique et informatique de la structure de ces graphes pour le lexique. Il s’agit de les géométriser afin de faire apparaître l’organisation du lexique, qui est implicitement encodée dans leur structure. Les outils mis en place sont testés sur le graphe du dictionnaire électronique des synonymes (www.crisco.unicaen.fr). Ils constituent une extension du logiciel Visusyn développé par Ploux et Victorri (1998).