2023
pdf
bib
Proceedings of the 1st International Workshop on Multilingual, Multimodal and Multitask Language Generation
Anabela Barreiro
|
Max Silberztein
|
Elena Lloret
|
Marcin Paprzycki
Proceedings of the 1st International Workshop on Multilingual, Multimodal and Multitask Language Generation
2021
pdf
bib
abs
Formalisation de la relation entre les verbes imperfectifs et perfectifs en ukrainien (In the Slavic linguistic tradition, perfective and imperfective forms of verbs are traditionally entered independently in dictionaries)
Olena Saint-Joanis
|
Max Silberztein
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Dans la tradition linguistique slave, les formes perfectives et imperfectives des verbes sont traditionnellement inscrites séparément dans les dictionnaires. Cependant, il existe de forts liens morphologiques et sémantiques entre les deux formes verbales. Nous présentons une formalisation qui nous a permis de lier les deux formes. Nous avons construit un dictionnaire électronique qui contient plus de 13 000 entrées verbales associées à plus de 300 paradigmes morphologiques, qui peut être utilisé pour automatiquement lemmatiser les formes verbales dans les textes ukrainiens et relier les formes perfectives et imperfectives.
2018
pdf
bib
Proceedings of the First Workshop on Linguistic Resources for Natural Language Processing
Peter Machonis
|
Anabela Barreiro
|
Kristina Kocijan
|
Max Silberztein
Proceedings of the First Workshop on Linguistic Resources for Natural Language Processing
pdf
bib
abs
Using Linguistic Resources to Evaluate the Quality of Annotated Corpora
Max Silberztein
Proceedings of the First Workshop on Linguistic Resources for Natural Language Processing
Statistical and neural-network-based methods that compute their results by comparing a given text to be analyzed with a reference corpus assume that the reference corpus is complete and reliable enough. In this article, I conduct several experiments on an extract of the Open American National Corpus to verify this assumption.
2017
pdf
bib
Proceedings of the Linguistic Resources for Automatic Natural Language Generation - LiRA@NLG
Kristina Kocijan
|
Peter Machonis
|
Max Silberztein
Proceedings of the Linguistic Resources for Automatic Natural Language Generation - LiRA@NLG
pdf
bib
From FOAF to English: Linguistic Contribution to Web Semantics
Max Silberztein
Proceedings of the Linguistic Resources for Automatic Natural Language Generation - LiRA@NLG
2014
pdf
bib
The Electronic Dictionary DEM in NooJ (Le dictionnaire DEM dans NooJ) [in French]
Max Silberztein
TALN-RECITAL 2014 Workshop FondamenTAL 2014 : Ressources lexicales et TAL - vue d’ensemble sur les dictionnaires électroniques de Jean Dubois et Françoise Dubois-Charlier (FondamenTAL 2014 : Lexical Resources and NLP)
2012
pdf
bib
Open source multi-platform NooJ for NLP
Max Silberztein
|
Tamás Váradi
|
Marko Tadić
Proceedings of COLING 2012: Demonstration Papers
2007
pdf
bib
abs
Ressources lexicales chinoises pour le TALN
Huei-Chi Lin
|
Max Silberztein
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Nous voulons traiter des textes chinois automatiquement ; pour ce faire, nous formalisons le vocabulaire chinois, en utilisant principalement des dictionnaires et des grammaires morphologiques et syntaxiques formalisés avec le logiciel NooJ. Nous présentons ici les critères linguistiques qui nous ont permis de construire dictionnaires et grammaires, sachant que l’application envisagée (linguistique de corpus) nous impose certaines contraintes dans la formalisation des unités de la langue, en particulier des composés.
2005
pdf
bib
NooJ: a Linguistic Annotation System for Corpus Processing
Max Silberztein
Proceedings of HLT/EMNLP 2005 Interactive Demonstrations
2001
pdf
bib
abs
Intex et ses applications informatiques
Max Silberztein
|
Thierry Poibeau
|
Antonio Balvet
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Tutoriels
Intex est un environnement de développement utilisé pour construire, tester et accumuler rapidement des motifs morpho-syntaxiques qui apparaissent dans des textes écrits en langue naturelle. Un survol du système est présenté dans [Silberztein, 1999] , le manuel d’instruction est disponible [Silberztein 2000]. Chaque description élémentaire est représentée par une grammaire locale, qui est habituellement entrée en machine grâce à l’éditeur de graphe d’Intex. Une caractéristique importante d’Intex est que chaque grammaire locale peut être facilement réemployée dans d’autres grammaires locales. Typiquement, les développeurs construisent des graphes élémentaires qui sont équivalents à des transducteurs à états finis, et réemploient ces graphes dans d’autres graphes de plus en plus complexes. Une seconde caractéristique d’Intex est que les objets traités (grammaires, dictionnaires et textes) sont représentés de façon interne par des transducteurs à états finis. En conséquence, toutes les fonctionnalités du système se ramènent à un nombre limité d’opérations sur des transducteurs. Par exemple, appliquer une grammaire à un texte revient à construire l’union des transducteurs élémentaires, la déterminiser, puis à calculer l’intersection du résultat avec le transducteur du texte. Cette architecture permet d’utiliser des algorithmes efficaces (par ex. lorsqu’on applique un transducteur déterministe à un texte préalablement indexé), et donne à Intex la puissance d’une machine de Turing (grâce à la possibilité d’appliquer des transducteurs en cascade). Dans ce tutoriel, nous montrerons comment utiliser un outil linguistique tel qu’Intex dans des environnements informatiques. Nous nous appuierons sur des applications de filtrage et d’extraction d’information, réalisées notamment au centre de recherche de Thales. Les applications suivantes seront détaillées, tant sur le plan linguistique qu’informatique filtrage d’information a partir d’un flux AFP [Meunier et al. l999] extraction de tables d’interaction entre gènes à partir de bases de données textuelles en génomique. [Poibeau 2001] Le tutoriel montrera comment Intex peut être employé comme moteur de filtrage d’un flux de dépêches de type AFP dans un cadre industriel. Il détaillera également les fonctionnalités de transformations des textes (transduction) permettant de passer rapidement de structures linguistiques variées à des formes normalisées permettant de remplir une base de données. Sur le plan informatique, on détaillera l’appel aux routines Intex, les paramétrages possibles (découpage en phrases, choix des dictionnaires...), et on survolera les nouvelles possibilités d’intégration (Intex API).
1994
pdf
bib
INTEX: A Corpus Processing System
Max D. Silberztein
COLING 1994 Volume 1: The 15th International Conference on Computational Linguistics