Evaluation of multilingual text alignment systems: the ARCADE II project
Yun-Chuang Chiao
Olivier Kraif
Dominique Laurent
Thi Minh Huyen Nguyen
Nasredine Semmar
François Stuck
Jean Véronis
Wajdi Zaghouani
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)
This paper describes the ARCADE II project, concerned with the evaluation of parallel text alignment systems. The ARCADE II project aims at exploring the techniques of multilingual text alignment through a fine evaluation of the existing techniques and the development of new alignment methods. The evaluation campaign consists of two tracks devoted to the evaluation of alignment at sentence and word level respectively. It differs from ARCADE I in the multilingual aspect and the investigation of lexical alignment.
Prise en compte des disfluences dans un système d’analyse syntaxique automatique de l’oral
Rémi Bove
Christine Chardenon
Jean Véronis
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous présentons dans cette étude un essai de prise en compte des disfluences dans un système d’analyse linguistique initialement prévu pour l’écrit, en vue de la réalisation d’un prototype de traduction parole-parole. À partir d’une étude approfondie sur corpus, nous montrons comment des modifications du lexique et de la grammaire ont permis de traiter les cas les plus simples (pauses remplies, répétitions de mots isolés, etc.). D’autres cas plus complexes comme répétitions et auto-corrections de syntagmes ont nécessité la mise au point d’un mécanisme de contrôle sémantique permettant de limiter la combinatoire. Cette étude a mis également en évidence la difficulté de traitement de phénomènes tels que les amorces (mots interrompus) et les constructions inachevées, qui pour l’instant restent sans solution satisfaisante.
The C-ORAL-ROM CORPUS. A Multilingual Resource of Spontaneous Speech for Romance Languages
Emanuela Cresti
Fernanda Bacelar do Nascimento
Antonio Moreno Sandoval
Jean Veronis
Philippe Martin
Khalid Choukri
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)
The C-ORAL-ROM project has delivered a multilingual corpus of spontaneous speech for the main romance languages (Italian, French, Portuguese and Spanish). The collection aims to represent the variety of speech acts performed in everyday language and to enable the description of prosodic and syntactic structures in the four romance languages. Sampling criteria are defined in a corpus design scheme. C-ORAL-ROM adopts two different sampling strategies, one for the formal and one for the informal part: While a set of typical domains of application is selected to document the formal use of language, the informal part documents speech variation using parameters referring to the event’s structure (dialogue vs. monologue) and the sociological domain of use (family-private vs public). The four romance corpora are tagged with respect to terminal and non terminal prosodic breaks. Terminal breaks are assumed to be the more relevant cues for the identification of relevant linguistic domains in spontaneous speech (utterances). Relations with other concurrent criteria are discussed. The multimedia storage of the C-ORAL-ROM corpus is based on this principle; each textual string ending with a terminal break is aligned, through the Win Pitch speech software, to its acoustic counterpart, generating the data base of all utterances.
Cartographie lexicale pour la recherche d”information
Jean Véronis
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous décrivons un algorithme, HyperLex, de détermination automatique des différents usages d’un mot dans une base textuelle sans utilisation d’un dictionnaire. Cet algorithme basé sur la détection des composantes de forte densité du graphe des cooccurrences de mots permet, contrairement aux méthodes précédemment proposées (vecteurs de mots), d’isoler des usages très peu fréquents. Il est associé à une technique de représentation graphique permettant à l’utilisateur de naviguer de façon visuelle à travers le lexique et d’explorer les différentes thématiques correspondant aux usages discriminés.
Etude des relations entre pauses et ponctuations pour la synthèse de la parole à partir de texte
Estelle Campione
Jean Véronis
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous présentons dans cette communication la première étude à grande échelle de la relation entre pauses et ponctuations, à l’aide de l’analyse de plusieurs milliers de pauses dans un corpus comportant près de 5 heures de parole lue en cinq langues, faisant intervenir 50 locuteurs des deux sexes. Nos résultats remettent en cause l’idée reçue de rapports bi-univoques entre pauses et ponctuations. Nous mettons en évidence une proportion importante de pauses hors ponctuation, qui délimitent des constituants, mais aussi un pourcentage élevé de ponctuations faibles réalisées sans pauses. Nous notons également une très grande variabilité inter-locuteur, ainsi que des différences importantes entre langues. Enfin, nous montrons que la durée des pauses est liée au sexe des locuteurs.
The C-ORAL-ROM Project. New methods for spoken language archives in a multilingual romance corpus
Emanuela Cresti
Massimo Moneglia
Fernanda Bacelar do Nascimento
Antonio Moreno Sandoval
Jean Veronis
Philippe Martin
Kalid Choukri
Valerie Mapelli
Daniele Falavigna
Antonio Cid
Claude Blum
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)
Etiquetage prosodique semi-automatique des corpus oraux
Estelle Campione
Jean Véronis
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
La transcription manuelle de la prosodie est une tâche extrêmement coûteuse en temps, qui requiert des annotateurs très spécialisés, et qui est sujette à de multiples erreurs et une grande part de subjectivité. Une automatisation complète n’est pas envisageable dans l’état actuel de la technologie, mais nous présentons dans cette communication des outils et une méthodologie qui permettent une réduction substantielle du temps d’intervention manuelle, et améliorent l’objectivité et la cohérence du résultat. De plus, les étapes manuelles nécessaires ne demandent pas une expertise phonétique poussée et peuvent être menées à bien par des étudiants et des “linguistes de corpus”.
Introduction to the Special Issue on Word Sense Disambiguation: The State of the Art
Nancy Ide
Jean Véronis
Computational Linguistics, Volume 24, Number 1, March 1998 - Special Issue on Word Sense Disambiguation
Methods and Practical Issues in Evaluating Alignment Techniques
Philippe Langlais
Michel Simard
Jean Veronis
36th Annual Meeting of the Association for Computational Linguistics and 17th International Conference on Computational Linguistics, Volume 1
Methods and Practical Issues in Evaluating Alignment Techniques
Philippe Langlais
Michel Simard
Jean Veronis
COLING 1998 Volume 1: The 17th International Conference on Computational Linguistics
MULTEXT: Multilingual Text Tools and Corpora
Nancy Ide
Jean Veronis
COLING 1994 Volume 1: The 15th International Conference on Computational Linguistics
Knowledge extraction from machine-readable dictionaries: an evaluation
Nancy Ide
Jean Véronis
Third International EAMT Workshop: Machine Translation and the Lexicon
Machine-readable versions of everyday dictionaries have been seen as a likely source of information for use in natural language processing because they contain an enormous amount of lexical and semantic knowledge. However, after 15 years of research, the results appear to be disappointing. No comprehensive evaluation of machine-readable dictionaries (MRDs) as a knowledge source has been made to date, although this is necessary to determine what, if anything, can be gained from MRD research. To this end, this paper will first consider the postulates upon which MRD research has been based over the past fifteen years, discuss the validity of these postulates, and evaluate the results of this work. We will then propose possible future directions and applications that may exploit these years of effort, in the light of current directions in not only NLP research, but also fields such as lexicography and electronic publishing.
Disjunctive Feature Structures as Hypergraphs
Jean Veronis
COLING 1992 Volume 2: The 14th International Conference on Computational Linguistics
A Feature-Based Model for Lexical Databases
Jean Veronis
Nancy Ide
COLING 1992 Volume 2: The 14th International Conference on Computational Linguistics
An Assessment of Semantic Information Automatically Extracted From Machine Readable Dictionaries
Jean Veronis
Nancy Ide
Fifth Conference of the European Chapter of the Association for Computational Linguistics
Word Sense Disambiguation with Very Large Neural Networks Extracted from Machine Readable Dictionaries
Jean Veronis
Nancy M. Ide
COLING 1990 Volume 2: Papers presented to the 13th International Conference on Computational Linguistics
Morphosyntactic correction in natural language interfaces
Jean Veronis
Coling Budapest 1988 Volume 2: International Conference on Computational Linguistics