2009
pdf
bib
abs
Un chunker multilingue endogène
Jacques Vergne
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Le chunking consiste à segmenter un texte en chunks, segments sous-phrastiques qu’Abney a défini approximativement comme des groupes accentuels. Traditionnellement, le chunking utilise des ressources monolingues, le plus souvent exhaustives, quelquefois partielles : des mots grammaticaux et des ponctuations, qui marquent souvent des débuts et fins de chunk. Mais cette méthode, si l’on veut l’étendre à de nombreuses langues, nécessite de multiplier les ressources monolingues. Nous présentons une nouvelle méthode : le chunking endogène, qui n’utilise aucune ressource hormis le texte analysé lui-même. Cette méthode prolonge les travaux de Zipf : la minimisation de l’effort de communication conduit les locuteurs à raccourcir les mots fréquents. On peut alors caractériser un chunk comme étant la période des fonctions périodiques correllées longueur et effectif des mots sur l’axe syntagmatique. Cette méthode originale présente l’avantage de s’appliquer à un grand nombre de langues d’écriture alphabétique, avec le même algorithme, sans aucune ressource.
pdf
bib
The chunk as the period of the functions length and frequency of words on the syntagmatic axis
Jacques Vergne
Proceedings of the 11th International Conference on Parsing Technologies (IWPT’09)
2002
pdf
bib
abs
Une méthode pour l’analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe
Jacques Vergne
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous présentons une méthode d’analyse descendante et calculatoire. La démarche d’analyse est descendante du document à la proposition, en passant par la phrase. Le prototype présenté prend en entrée des documents en anglais, français, italien, espagnol, ou allemand. Il segmente les phrases en propositions, et calcule les relations sujet-verbe dans les propositions. Il est calculatoire, car il exécute un petit nombre d’opérations sur les données. Il utilise très peu de ressources (environ 200 mots et locutions par langue), et le traitement de la phrase fait environ 60 Ko de Perl, ressources lexicales comprises. La méthode présentée se situe dans le cadre d’une recherche plus générale du Groupe Syntaxe et Ingénierie Multilingue du GREYC sur l’exploration de solutions minimales et multilingues, ajustées à une tâche donnée, exploitant peu de propriétés linguistiques profondes, la généricité allant de pair avec l’efficacité.
2001
pdf
bib
abs
Analyse syntaxique automatique de langues du combinatoire au calculatoire
Jacques Vergne
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Conférences invitées
Nous proposons de montrer comment l’analyse syntaxique automatique est aujourd’hui à un tournant de son évolution, en mettant l’accent sur l’évolution des modèles d’analyse syntaxique : de l’analyse de langages de programmation (compilation) à l’analyse de langues, et, dans le cadre de l’analyse de langues, de l’analyse combinatoire à l’analyse calculatoire, en passant par le tagging et le chunking (synthèse en section 4). On marquera d’abord le poids historique des grammaires formelles, comme outil de modélisation des langues et des langages formels (section 1), et comment la compilation a été transposée en traduction automatique par Bernard Vauquois. On analysera ensuite pourquoi il n’a pas été possible d’obtenir en analyse de langue un fonctionnement analogue à la compilation, et pourquoi la complexité linéaire de la compilation n’a pas pu être transposée en analyse syntaxique (section 2). Les codes analysés étant fondamentalement différents, et le tagging ayant montré la voie, nous en avons pris acte en abandonnant la compilation transposée : plus de dictionnaire exhaustif en entrée, plus de grammaire formelle pour modéliser les structures linguistiques (section 3). Nous montrerons comment, dans nos analyseurs, nous avons implémenté une solution calculatoire, de complexité linéaire (section 5). Nous conclurons (section 6) en pointant quelques évolutions des tâches de l’analyse syntaxique.
1997
pdf
bib
abs
From Part of Speech Tagging to Memory-based Deep Syntactic Analysis
Emmanuel Giguet
|
Jacques Vergne
Proceedings of the Fifth International Workshop on Parsing Technologies
This paper presents a robust system for deep syntactic parsing of unrestricted French. This system uses techniques from Part-of-Speech tagging in order to build a constituent structure and uses other techniques from dependency grammar in an original framework of memories in order to build a functional structure. The two structures are build simultaneously by two interacting processes. The processes share the same aim, that is, to recover efficiently and reliably syntactic information with no explicit expectation on text structure.
pdf
bib
Syntactic Structures of Sentences from Large Corpora
Emmanuel Giguet
|
Jacques Vergne
Fifth Conference on Applied Natural Language Processing: Descriptions of System Demonstrations and Videos
1990
pdf
bib
A parser without a dictionary as a tool for research into French syntax
Jacques Vergne
COLING 1990 Volume 1: Papers presented to the 13th International Conference on Computational Linguistics
1986
pdf
bib
Synergy of syntax and morphology in automatic parsing of French language with a minimum of data
Jacques Vergne
|
Pascale Pages
|
Inalco PariS
Coling 1986 Volume 1: The 11th International Conference on Computational Linguistics