pdf
bib
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Nicolas Hernandez
|
Guillaume Pitel
pdf
bib
abs
How semantic is Latent Semantic Analysis?
Tonio Wandmacher
In the past decade, Latent Semantic Analysis (LSA) was used in many NLP approaches with sometimes remarkable success. However, its abilities to express semantic relatedness were not yet systematically investigated. This is the aim of our work, where LSA is applied to a general text corpus (German newspaper), and for a test vocabulary, the lexical relations between a test word and its closest neighbours are analysed. These results are compared to the results from a collocation analysis.
pdf
bib
abs
Quels types de connaissance sémantique pour Questions-Réponses ?
Vincent Barbier
Les systèmes de Questions Réponse ont besoin de connaissances sémantiques pour trouver dans les documents des termes susceptibles d’être des reformulations des termes de la question. Cependant, l’utilisation de ressources sémantiques peut apporter un bruit important et altérer la précision du système. ne fournit qu’une partie des reformulations possibles. Cet article présente un cadre d’évaluation pour les ressources sémantiques dans les systèmes de question-réponse. Il décrit la fabrication semi-automatique d’un corpus de questions et de réponses destiné à étudier les reformulations présentes entre termes de la question et termes de la réponse. Il étudie la fréquence et la fiabilité des reformulations extraites de l’ontologie WordNet.
pdf
bib
abs
Une plate-forme logicielle dédiée à la cartographie thématique de corpus
Thibault Roy
Cet article présente les principes de fonctionnement et les intérêts d’une plate-forme logicielle centrée sur un utilisateur ou un groupe d’utilisateurs et dédiée à la visualisation de propriétés thématiques d’ensembles de documents électroniques. Cette plate-forme, appelée ProxiDocs, permet de dresser des représentations graphiques (des cartes) d’un ensemble de textes à partir de thèmes choisis et définis par un utilisateur ou un groupe d’utilisateurs. Ces cartes sont interactives et permettent de visualiser les proximités et les différences thématiques entre textes composant le corpus étudié. Selon le type d’analyse souhaitée par l’utilisateur, ces cartes peuvent également s’animer afin de représenter les changements thématiques d’un ensemble de textes au fil du temps.
pdf
bib
abs
Segmentation morphologique à partir de corpus
Delphine Bernhard
Nous décrivons une méthode de segmentation morphologique automatique. L’algorithme utilise uniquement une liste des mots d’un corpus et tire parti des probabilités conditionnelles observées entre les sous-chaînes extraites de ce lexique. La méthode est également fondée sur l’utilisation de graphes d’alignement de segments de mots. Le résultat est un découpage de chaque mot sous la forme (préfixe*) + base + (suffixe*). Nous évaluons la pertinence des familles morphologiques découvertes par l’algorithme sur un corpus de textes médicaux français contenant des mots à la structure morphologique complexe.
pdf
bib
abs
Traduction des règles de construction des mots pour résoudre l’incomplétude lexicale en traduction automatique - Etude de cas
Bruno Cartoni
Cet article propose d’exploiter les similitudes constructionnelles de deux langues morphologiquement proches (le français et l’italien), pour créer des règles de construction des mots capables de déconstruire un néologisme construit de la langue source et générer de manière similaire un néologisme construit dans la langue cible. Nous commençons par présenter diverses motivations à cette méthode, puis détaillons une expérience pour laquelle plusieurs règles de transfert ont été créées et appliquées à un ensemble de néologismes construits.
pdf
bib
abs
A la découverte de la polysémie des spécificités du français technique
Ann Bertels
Cet article décrit l’analyse sémantique des spécificités dans le domaine technique des machines-outils pour l’usinage des métaux. Le but de cette étude est de vérifier si et dans quelle mesure les spécificités dans ce domaine sont monosémiques ou polysémiques. Les spécificités (situées dans un continuum de spécificité) seront identifiées avec la KeyWords Method en comparant le corpus d’analyse à un corpus de référence. Elles feront ensuite l’objet d’une analyse sémantique automatisée à partir du recouvrement des cooccurrences des cooccurrences, afin d’établir le continuum de monosémie. Les travaux de recherche étant en cours, nous présenterons des résultats préliminaires de cette double analyse.
pdf
bib
abs
Système AlALeR - Alignement au niveau phrastique des textes parallèles français-japonais
Yayoi Nakamura-Delloye
Le présent article décrit le Système AlALeR (Système d’Alignement Autonome, Léger et Robuste). Capable d’aligner au niveau phrastique un texte en français et un texte en japonais, le Système AlALeR ne recourt cependant à aucun moyen extérieur tel qu’un analyseur morphologique ou des dictionnaires, au contraire des méthodes existantes. Il est caractérisé par son analyse morphologique partielle mettant à profit des particularités du système d’écriture japonais et par la transcription des mots emprunts, à l’aide d’un transducteur.
pdf
bib
abs
Acquisition semi-automatique de relations lexicales bilingues (français-anglais) à partir du Web
Stéphanie Léon
|
Chrystel Millon
Cet article présente une méthode d’acquisition semi-automatique de relations lexicales bilingues (français-anglais) faisant appel à un processus de validation sur le Web. Notre approche consiste d’abord à extraire automatiquement des relations lexicales françaises. Nous générons ensuite leurs traductions potentielles grâce à un dictionnaire électronique. Ces traductions sont enfin automatiquement filtrées à partir de requêtes lancées sur le moteur de recherche Google. Notre évaluation sur 10 mots français très polysémiques montre que le Web permet de constituer ou compléter des bases de données lexicales multilingues, encore trop rares, mais dont l’utilité est pourtant primordiale pour de nombreuses applications, dont la traduction automatique.
pdf
bib
abs
Linguistic representation of Finnish in the medical domain spoken language translation system
Marianne Santaholma
This paper describes the development of Finnish linguistic resources for use in MedSLT, an Open Source medical domain speech-to-speech translation system. The paper describes the collection of medical Finnish corpora, the creation of a Finnish grammar by adapting the original English grammar, the composition of a domain specific Finnish lexicon and the definition of interlingua to Finnish mapping rules for multilingual translation. It is shown that Finnish can be effectively introduced into the existing MedSLT framework and that despite the differences between English and Finnish, the Finnish grammar can be created by manual adaptation from the original English grammar. Regarding further development, the initial evaluation results of English-Finnish speech-to-speech translation are encouraging.
pdf
bib
abs
Constitution d’un corpus de français tchaté
Achille Falaise
Nous présentons dans cet article un corpus de français tchaté, destiné à l’étude de la langue du tchat. Ce corpus, collecté et encodé automatiquement, est remarquable avant tout par son étendue, puisqu’il couvre un total de 4 millions de messages sur 105 canaux, hétérogènes sur les plans thématique et pragmatique. Son codage simple ne sera toutefois pas satisfaisant pour tous les usages. Il est disponible sur un site Internet, et consultable grâce à une interface web.
pdf
bib
abs
Étude de quelques problèmes de phonétisation dans un système de synthèse de la parole à partir de SMS
Rémi Bove
Cet article présente une étude dont l’objectif était d’améliorer la phonétisation d’un système de synthèse vocale de SMS en ce qui concerne trois types de problèmes : l’écriture rébus (chiffres et lettres utilisés pour leur valeur phonique), les abréviations sous forme de squelettes consonantiques et les agglutinations (déterminants ou pronoms collés graphiquement au mot qui suit). Notre approche se base sur l’analyse d’un corpus de SMS, à partir duquel nous avons extrait des listes de formes permettant de compléter les lexiques du système, et mis au point de nouvelles règles pour les grammaires internes. Les modifications effectuées apportent une amélioration substantielle du système, bien qu’il reste, évidemment, de nombreuses autres classes de problèmes à traiter.