Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

Piet Mertens, Cédrick Fairon, Anne Dister, Patrick Watrin (Editors)


Anthology ID:
2006.jeptalnrecital-recital
Month:
April
Year:
2006
Address:
Leuven, Belgique
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
URL:
https://aclanthology.org/2006.jeptalnrecital-recital
DOI:
Bib Export formats:
BibTeX MODS XML EndNote

pdf bib
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Piet Mertens | Cédrick Fairon | Anne Dister | Patrick Watrin

pdf bib
Acquisition semi-automatique de collocations à partir de corpus monolingues et multilingues comparables
Vincent Archer

Cet article présente une méthode d’acquisition semi-automatique de collocations. Notre extraction monolingue estime pour chaque co-occurrence sa capacité à être une collocation, d’après une mesure statistique modélisant une caractéristique essentielle (le fait qu’une collocation se produit plus souvent que par hasard), effectue ensuite un filtrage automatique (en utilisant les vecteurs conceptuels) pour ne retenir que des collocations d’un certain type sémantique, puis effectue enfin un nouveau filtrage à partir de données entrées manuellement. Notre extraction bilingue est effectuée à partir de corpus comparables, et a pour but d’extraire des collocations qui ne soient pas forcément traductions mot à mot l’une de l’autre. Notre évaluation démontre l’intérêt de mêler extraction automatique et intervention manuelle pour acquérir des collocations et ainsi permettre de compléter les bases lexicales multilingues.

pdf bib
Constance et variabilité de l’incomplétude lexicale
Bruno Cartoni

Cet article propose, au travers des résultats de différentes expériences sur la couverture des lexiques informatisés, de montrer que l’incomplétude lexicale est un phénomène constant dans tous les lexiques de TAL, mais que les mots inconnus eux-mêmes varient grandement selon les outils. Nous montrons également que la constance de cette incomplétude est étroitement liée à la créativité lexicale de la langue.

pdf bib
Problèmes de représentation de la Langue des Signes Française en vue du traitement automatique
Loïc Kervajan

Nous proposons dans cet article une description de la Langue des Signes Française dans le but de traduire des énoncés courts du français et de les faire signer par un personnage de synthèse. Cette description pose en préalable la question de la transcription des éléments d’une langue dont le signal n’est pas linéaire. Il s’agit ensuite de repérer les différentes couches linguistiques et la forme de leurs unités constitutives en vue de la répartition des tâches informatiques : la synthèse de gestes nécessite un traitement des éléments constitutifs du geste et la génération syntaxique doit pouvoir manipuler des morphèmes.

pdf bib
L’information biographique : modélisation, extraction et organisation en base de connaissances
Laurent Kevers

L’extraction et la valorisation de données biographiques contenues dans les dépêches de presse est un processus complexe. Pour l’appréhender correctement, une définition complète, précise et fonctionnelle de cette information est nécessaire. Or, la difficulté que l’on rencontre lors de l’analyse préalable de la tâche d’extraction réside dans l’absence d’une telle définition. Nous proposons ici des conventions dans le but d’en développer une. Le principal concept utilisé pour son expression est la structuration de l’information sous forme de triplets sujet, relation, objet. Le début de définition ainsi construit est exploité lors de l’étape d’extraction d’informations par transducteurs à états finis. Il permet également de suggérer une solution d’implémentation pour l’organisation des données extraites en base de connaissances.

pdf bib
Repérage de segments d’information évolutive dans des documents de type encyclopédique
Marion Laignelet

Dans cet article, nous cherchons à caractériser linguistiquement des segments textuels définis pragmatiquement, relativement à des besoins de réédition de documents et au sein desquels l’information est susceptible d’évoluer dans le temps. Sur la base d’un corpus de textes encyclopédiques en français, nous analysons la distribution de marqueurs textuels et discursifs et leur pertinence en nous focalisant principalement sur un traitement sémantique particulier de la temporalité.

pdf bib
Acquisition automatique de traductions de termes complexes par comparaison de « mondes lexicaux » sur le Web
Stéphanie Léon

Nous présentons une méthode de traduction automatique de termes complexes pour la construction de ressources bilingues français/anglais, basée principalement sur une comparaison entre « mondes lexicaux » (ensemble de co-occurrents), à partir du Web. Nous construisons les mondes lexicaux des termes français sur le Web. Puis, nous générons leurs traductions candidates via un dictionnaire bilingue électronique et constituons les mondes lexicaux de toutes les traductions candidates. Nous comparons enfin les mondes lexicaux français et anglais afin de valider la traduction adéquate par filtres statistiques. Notre évaluation sur 10 mots français très polysémiques montre que l’exploitation des mondes lexicaux des termes complexes sur le Web permet une acquisition automatique de traductions avec une excellente précision.

pdf bib
Unsupervised approaches to metonymy recognition
Yves Peirsman

To this day, the automatic recognition of metonymies has generally been addressed with supervised approaches. However, these require the annotation of a large number of training instances and hence, hinder the development of a wide-scale metonymy recognition system. This paper investigates if this knowledge acquisition bottleneck in metonymy recognition can be resolved by the application of unsupervised learning. Although the investigated technique, Schütze’s (1998) algorithm, enjoys considerable popularity in Word Sense Disambiguation, I will show that it is not yet robust enough to tackle the specific case of metonymy recognition. In particular, I will study the influence on its performance of four variables—the type of data set, the size of the context window, the application of SVD and the type of feature selection.

pdf bib
Une première approche de l’utilisation des chaînes coréférentielles pour la détection des variantes anaphoriques de termes
Sarah Trichet-Allaire

Cet article traite de l’utilité à détecter une chaîne coréférentielle de termes complexes afin d’améliorer la détection de variations de ce même terme complexe. Nous implémentons pour cela un programme permettant de détecter le nombre de variantes anaphoriques d’un terme complexe ainsi que le nombre de variantes anaphoriques de termes dans un texte scientifique. Ces deux fonctionnalités sont développées avec une ancrage dans une chaîne coréférentielle et en dehors de toute chaîne coréférentielle, afin de pouvoir évaluer l’efficacité de cette méthode.