Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)

Nicolas Hernandez, Guillaume Pitel (Editors)


Anthology ID:
2005.jeptalnrecital-recitalcourt
Month:
June
Year:
2005
Address:
Dourdan, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
URL:
https://aclanthology.org/2005.jeptalnrecital-recitalcourt
DOI:
Bib Export formats:
BibTeX MODS XML EndNote

pdf bib
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (articles courts)
Nicolas Hernandez | Guillaume Pitel

pdf bib
Synchronisation syntaxe sémantique, des grammaires minimalistes catégorielles (GMC) aux Constraint Languages for Lambda Structures (CLLS)
Maxime Amblard

Ces travaux se basent sur l’approche computationelle et logique de Ed Stabler (?), qui donne une formalisation sous forme de grammaire du programme minimaliste de Noam Chomsky (?). La question que je veux aborder est comment, à partir d’une analyse syntaxique retrouver la forme prédicative de l’énoncé. Pour cela, il faut mettre en place une interface entre syntaxe et sémantique. C’est ce que je propose en utilisant les Grammaires Minimalistes Catégorielles (GMC) extension des GM vers le calcul de Lambeck. Ce nouveau formalisme permet une synchronisation simple avec le lambda-calcul. Parmi les questions fréquemment rencontrées dans le traitement des langues naturelles, j’interroge la performance de cette interface pour la résolution des problèmes de portée des quantificateurs. Je montre pourquoi et comment il faut utiliser un lambda-calcul plus élaboré pour obtenir les différentes lectures, en utilisant Constraint Languages for Lambda Structures -CLLS.

pdf bib
Recherche d’information en langue arabe : influence des paramètres linguistiques et de pondération en LSA
Siham Boulaknadel | Fadoua Ataa-Allah

Nous nous intéressons à la recherche d’information en langue arabe en utilisant le modèle de l’analyse sémantique latente (LSA). Nous proposons dans cet article de montrer que le traitement linguistique et la pondération des unités lexicales influent sur la performance de la LSA pour quatre cas d’études : le premier avec un simple prétraitement des corpus; le deuxième en utilisant un anti-dictionnaire; le troisième avec un racineur de l’arabe ; le quatrième où nous avons combiné l’anti-dictionnaire et le racineur. Globalement les résultats de nos expérimentations montrent que les traitements linguistiques ainsi que la pondération des unités lexicales utilisés améliorent la performance de LSA.

pdf bib
Etiquetage morpho-syntaxique des textes arabes par modèle de Markov caché
Abdelhamid El Jihad | Abdellah Yousfi

L’étiquetage des textes est un outil très important pour le traitement automatique de langage, il est utilisé dans plusieurs applications par exemple l’analyse morphologique et syntaxique des textes, l’indexation, la recherche documentaire, la voyellation pour la langue arabe, les modèles de langage probabilistes (modèles n-classes), etc. Dans cet article nous avons élaboré un système d’étiquetage morpho-syntaxique de la langue arabe en utilisant les modèles de Markov cachés, et ceci pour construire un corpus de référence étiqueté et représentant les principales difficultés grammaticales rencontrées en langue arabe générale. Pour l’estimation des paramètres de ce modèle, nous avons utilisé un corpus d’apprentissage étiqueté manuellement en utilisant un jeu de 52 étiquettes de nature morpho-syntaxique. Ensuite on procède à une amélioration du système grâce à la procédure de réestimation des paramètres de ce modèle.

pdf bib
Identification des composants temporels pour la représentation des dépêches épidémiologiques
Manal El Zant | Liliane Pellegrin | Hervé Chaudet | Michel Roux

Dans le cadre du projet EpidémIA qui vise à la construction d’un système d’aide à la décision pour assister l’utilisateur dans son activité de gestion des risques sanitaires, un travail préalable sur la compositionalité des évènements (STEEL) nous a permis d’orienter notre travail dans le domaine de la localisation d’information spatio-temporelle. Nous avons construit des graphes de transducteurs pour identifier les informations temporelles sur un corpus de 100 dépêches de la langue anglaise de ProMed. Nous avons utilisé le système d’extraction d’information INTEX pour la construction de ces transducteurs. Les résultats obtenus présentent une efficacité de ces graphes pour l’identification des données temporelles.

pdf bib
Utilisation de la Linguistique Systémique Fonctionnelle pour la détection des noms de personnes ambigus
Thomas Heitz

Dans cet article, nous nous proposons de construire un lexique étiqueté selon les principes de la Linguistique Systémique Fonctionnelle (LSF) et de l’appliquer à la détection des noms de personnes ambigus dans les textes. Nous ne faisons pas d’analyse complète mais testons plutôt si certaines caractéristiques de la LSF peuvent permettre de compléter les modèles linguistiques actuellement utilisés pour la détection des entités nommées. Nous souhaitons ainsi apporter une contribution à l’application du formalisme LSF dans l’analyse automatique de textes après son application déjà éprouvée à la génération de textes.

pdf bib
Durée des consonnes géminées en parole arabe : mesures et comparaison
Mohamed Khairallah Khouja | Mounir Zrigui

Dans ce papier, nous présentons les résultats d’une étude expérimentale de la durée des consonnes géminées de l’arabe. Nous visons à déterminer la durée, pour une séquence VCCV, de la consonne géminée CC ainsi que de la voyelle qui la précède. Nous comparons ces valeurs à celles mesurées pour une séquence VCV. Les résultats ont prouvé que la durée de la consonne simple était sensiblement différente de celle géminée, ainsi que la durée de la voyelle précédant la consonne. A la base, ce travail est entrepris dans un but d’étudier l’utilisation des durées de phonèmes comme une source d’information pour optimiser un système de reconnaissance, donc introduire des modèles explicites de durée des phonèmes, et mettre en application ces modèles comme partie du modèle acoustique du système de reconnaissance.

pdf bib
Vers une utilisation du TAL dans la description pédagogique de textes dans l’enseignement des langues
Mathieu Loiseau

Alors que de nombreux travaux portent actuellement sur la linguistique de corpus, l’utilisation de textes authentiques en classe de langue, ou de corpus dans l’enseignement des langues (via concordanciers), quasiment aucun travail n’a été réalisé en vue de la réalisation de bases de textes à l’usage des enseignants de langue, indexées en fonction de critères relevant de la problématique de la didactique des langues. Dans le cadre de cet article, nous proposons de préciser cette notion d’indexation pédagogique, puis de présenter les principaux standards de description de ressources pédagogiques existants, avant de montrer l’inadéquation de ces standards à la description de textes dans l’optique de leur utilisation dans l’enseignement des langues. Enfin nous en aborderons les conséquences relativement à la réalisation de la base.

pdf bib
Une méthode pour la classification de signal de parole sur la caractéristique de nasalisation
Pierre-Sylvain Luquet

Nous exposons ici une méthode permettant d’étudier la nature d’un signal de parole dans le temps. Plus précisément, nous nous intéressons à la caractéristique de nasalisation du signal. Ainsi nous cherchons à savoir si à un instant t le signal est nasalisé ou oralisé. Nous procédons par classification à l’aide d’un réseau de neurones type perceptron multi-couches, après une phase d’apprentissage supervisée. La classification, après segmentation du signal en fenêtres, nous permet d’associer à chaque fenêtre de signal une étiquette renseignant sur la nature du signal.

pdf bib
De la linguistique aux statistiques pour indexer des documents dans un référentiel métier
Wilfried Njomgue Sado | Dominique Fontaine

Cet article présente une méthode d’indexation automatique de documents basée sur une approche linguistique et statistique. Cette dernière est une combinaison séquentielle de l’analyse linguistique du document à indexer par l’extraction des termes significatifs du document et de l’analyse statistique par la décomposition en valeurs singulières des mots composant le document. La pondération des termes tire avantage de leur contexte local, par rapport au document, global, par rapport à la base de données, et de leur position par rapport aux autres termes, les co-occurrences. Le système d’indexation présenté fait des propositions d’affectations du document à un référentiel métier dont les thèmes sont prédéfinis. Nous présentons les résultats de l’expérimentation de ce système menée sur un corpus des pôles métiers de la société Suez-Environnement.

pdf bib
Vers un Système d’écriture Informatique Amazighe :Méthodes et développements
Ali Rachidi | Driss Mammass

L’intégration des technologies de l’information et de communication (TIC) à l’apprentissage de la langue Amazighe est absolument nécessaire pour qu’elle ait droit de cité plein et entier sur le Web et dans le monde informatisé. Nous présentons quelques réflexions sur les stratégies et méthodes d’informatisation de l’amazighe qui est une langue peu dotée informatiquement. Ces réflexions visent surtout l’optimisation de l’effort d’informatisation. En effet, les méthodes proposées tiennent en compte non seulement l’alphabet proposé par l’IRCAM1 et confirmée par l’ISO (format Unicode) le 21 juin 2004 (IRCAM, 2004 a) mais aussi le contexte francophone des populations berbères.

pdf bib
Un système de lissage linéaire pour la synthèse de la parole arabe : Discussion des résultats obtenus
Tahar Saidane | Mounir Zrigui | Mohamed Ben Ahmed

Notre article s’intègre dans le cadre du projet intitulé “Oréodule” : un système embarqué temps réel de reconnaissance, de traduction et de synthèse de la parole. L’objet de notre intérêt dans cet article est la présentation de notre système de synthèse hybride de la parole arabe. Nous présenterons, dans ce papier, les différents modules et les différents choix techniques de notre système de synthèse hybride par concaténation de polyphèmes. Nous détaillerons également les règles de transcription et leurs effets sur le traitement linguistique, les règles de syllabation et leurs impacts sur le coût (temps et difficulté) de réalisation du module acoustique et nous poursuivrons par l’exposé de nos choix au niveau du module de concaténation. Nous décrirons le module de lissage, un traitement acoustique, post concaténation, nécessaire à l’amélioration de la qualité de la voix synthétisée. Enfin, nous présenterons les résultats de l’étude statistique de compréhension, réalisée sur un corpus.

pdf bib
Clustering Web Pages to Identify Emerging Textual Patterns
Marina Santini

The Web has triggered many adjustments in many fields. It also has had a strong impact on the genre repertoire. Novel genres have already emerged, e.g. blog and FAQs. Presumably, other new genres are still in formation, because the Web is still fluid and in constant change. In this paper we present an experiment that explores the possibility of automatically detecting the emerging textual patterns that are slowly taking shape on the Web. Emerging textual patterns can develop into novel Web genres or novel text types in the near future. The experimental set up includes a collection of unclassified web pages, two sets of features and the use of cluster analysis. Results are encouraging and deserve further investigation.

pdf bib
Memory-based-Learning et Base de règles pour un Etiqueteur du Texte Arabe
Yamina Tlili-Guiassa

Jusqu’a présent il n’y a pas de système automatique complet pour l’étiquetage du texte arabe. Les méthodes qu’elles soient basées sur des règles explicites ou sur des calculs statistiques, ont été développées pour pallier au problème de l’ambiguïté lexicale. Celles-ci introduisent des informations sur le contexte immédiat des mots, mais font l’impasse sur les exceptions qui échappent aux traitements. L’apparition des méthodes Memory-Based Learning(MBL) a permis l’exploitation automatique de la similarité de l’information contenue dans de grandes masses de textes et , en cas d’anomalie, permet de déduire la catégorie la plus probable dans un contexte donné, sans que le linguiste ait à formuler des règles explicites. Ce papier qui présente une approche hybride combine les méthodes à base de règles et MBL afin d’optimiser la performance de l’étiqueteur. Les résultats ainsi obtenus, présentés en section 6, sont satisfaisants et l’ objectif recherché est atteint.

pdf bib
Cent mille milliards de poèmes et combien de sens? Une étude d’analyse potentielle
Florentina Vasilescu Armaselu

A partir du concept de cohésion comme mesure de l’unité du texte et du modèle oulipien de la littérature par contraintes, notre étude propose une méthode d’analyse potentielle sur ordinateur dans le cas des Cent mille milliards des poèmes. En s’appuyant sur un ensemble de contraintes initiales, notre programme serait capable d’analyser tous les textes potentiels produits par la machine en utilisant ces contraintes.

pdf bib
Analyse informatique du roman proustien “Du coté de chez Swann”
Katia Zellagui

Dans le cadre du développement des environnements d’analyse linguistique, d’étiquetage de corpus et d’analyse statistique afin de traiter des corpus de grande taille, nous proposons de mettre au point des procédures nouvelles d’étiquetage morpho-syntaxique et sémantique. Nous présentons un ensemble de ressources linguistiques - dictionnaires et grammaires - dans le but d’étiqueter entièrement le roman proustien : « Du côté de chez Swann ». Notre recherche avance deux atouts majeurs : la précision des étiquettes attribuées aux formes linguistiques du texte ; et le repérage et étiquetage exhaustifs des mots composés.

pdf bib
Un étiqueteur sémantique des énoncés en langue arabe
Anis Zouaghi | Mounir Zrigui | Mohamed Ben Ahmed

Notre article s’intègre dans le cadre du projet intitulé Oréodule: un système de reconnaissance, de traduction et de synthèse de la parole spontanée. L’objectif de cet article est de présenter un modèle d’étiquetage probabiliste, selon une approche componentielle et sélective. Cette approche ne considère que les éléments de l’énoncé porteurs de sens. La signification de chaque mot est représentée par un ensemble de traits sémantiques Ts. Ce modèle participe au choix des Ts candidats lors du décodage sémantique d’un énoncé.