2021
pdf
bib
abs
Identifying and Resolving Annotation Changes for Natural Language Understanding
Jose Garrido Ramas
|
Giorgio Pessot
|
Abdalghani Abujabal
|
Martin Rajman
Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies: Industry Papers
Annotation conflict resolution is crucial towards building machine learning models with acceptable performance. Past work on annotation conflict resolution had assumed that data is collected at once, with a fixed set of annotators and fixed annotation guidelines. Moreover, previous work dealt with atomic labeling tasks. In this paper, we address annotation conflict resolution for Natural Language Understanding (NLU), a structured prediction task, in a real-world setting of commercial voice-controlled personal assistants, where (1) regular data collections are needed to support new and existing functionalities, (2) annotation guidelines evolve over time, and (3) the pool of annotators change across data collections. We devise an approach combining information-theoretic measures and a supervised neural model to resolve conflicts in data annotation. We evaluate our approach both intrinsically and extrinsically on a real-world dataset with 3.5M utterances of a commercial dialog system in German. Our approach leads to dramatic improvements over a majority baseline especially in contentious cases. On the NLU task, our approach achieves 2.75% error reduction over a no-resolution baseline.
2006
pdf
bib
abs
Extending the Wizard of Oz Methodologie for Multimodal Language-enabled Systems
Martin Rajman
|
Marita Ailomaa
|
Agnes Lisowska
|
Miroslav Melichar
|
Susan Armstrong
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)
In this paper we present a proposal for extending the standard Wizard of Oz experimental methodology to language-enabled multimodal systems. We first discuss how Wizard of Oz experiments involving multimodal systems differ from those involving voice-only systems. We then go on to discuss the Extended Wizard of Oz methodology and the Wizard of Oz testing environment and protocol that we have developed. We then describe an example of applying this methodology to Archivus, a multimodal system for multimedia meeting retrieval and browsing. We focus in particular on the tools that the wizards would need to successfully and efficiently perform their tasks in a multimodal context. We conclude with some general comments about which questions need to be addressed when developing and using the Wizard of Oz methodology for testing multimodal systems.
pdf
bib
abs
CESTA: First Conclusions of the Technolangue MT Evaluation Campaign
O. Hamon
|
A. Popescu-Belis
|
K. Choukri
|
M. Dabbadie
|
A. Hartley
|
W. Mustafa El Hadi
|
M. Rajman
|
I. Timimi
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)
This article outlines the evaluation protocol and provides the main results of the French Evaluation Campaign for Machine Translation Systems, CESTA. Following the initial objectives and evaluation plans, the evaluation metrics are briefly described: along with fluency and adequacy assessed by human judges, a number of recently proposed automated metrics are used. Two evaluation campaigns were organized, the first one in the general domain, and the second one in the medical domain. Up to six systems translating from English into French, and two systems translating from Arabic into French, took part in the campaign. The numerical results illustrate the differences between classes of systems, and provide interesting indications about the reliability of the automated metrics for French as a target language, both by comparison to human judges and using correlations between metrics. The corpora that were produced, as well as the information about the reliability of metrics, constitute reusable resources for MT evaluation.
pdf
bib
abs
X-Score: Automatic Evaluation of Machine Translation Grammaticality
O. Hamon
|
M. Rajman
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)
In this paper we report an experiment of an automated metric used to analyse the grammaticality of machine translation output. The approach (Rajman, Hartley, 2001) is based on the distribution of the linguistic information within a translated text, which is supposed similar between a learning corpus and the translation. This method is quite inexpensive, since it does not need any reference translation. First we describe the experimental method and the different tests we used. Then we show the promising results we obtained on the CESTA data, and how they correlate well with human judgments.
pdf
bib
Archivus: A Multimodal System for Multimedia Meeting Browsing and Retrieval
Marita Ailomaa
|
Miroslav Melichar
|
Agnes Lisowska
|
Martin Rajman
|
Susan Armstrong
Proceedings of the COLING/ACL 2006 Interactive Presentation Sessions
pdf
bib
Robust stochastic parsing: Comparing and combining two approaches for processing extra-grammatical sentences
Marita Ailomaa
|
Vladimír Kadlec
|
Martin Rajman
|
Jean-Cédric Chappelier
Proceedings of the 15th Nordic Conference of Computational Linguistics (NODALIDA 2005)
2005
pdf
bib
abs
Evaluation of Machine Translation with Predictive Metrics beyond BLEU/NIST: CESTA Evaluation Campaign # 1
Sylvain Surcin
|
Olivier Hamon
|
Antony Hartley
|
Martin Rajman
|
Andrei Popescu-Belis
|
Widad Mustafa El Hadi
|
Ismaïl Timimi
|
Marianne Dabbadie
|
Khalid Choukri
Proceedings of Machine Translation Summit X: Papers
In this paper, we report on the results of a full-size evaluation campaign of various MT systems. This campaign is novel compared to the classical DARPA/NIST MT evaluation campaigns in the sense that French is the target language, and that it includes an experiment of meta-evaluation of various metrics claiming to better predict different attributes of translation quality. We first describe the campaign, its context, its protocol and the data we used. Then we summarise the results obtained by the participating systems and discuss the meta-evaluation of the metrics used.
2004
pdf
bib
CESTA: Machine Translation Evaluation Campaign [Work-in-Progress Project Report]
Widad Mustafa El Hadi
|
Marianne Dabbadie
|
Ismaïl Timimi
|
Martin Rajman
|
Philippe Langlais
|
Antony Hartley
|
Andrei Popescu Belis
Proceedings of the Second International Workshop on Language Resources for Translation Work, Research and Training
pdf
bib
INSPIRE: Evaluation of a Smart-Home System for Infotainment Management and Device Control
Sebastian Möller
|
Jan Krebber
|
Alexander Raake
|
Paula Smeele
|
Martin Rajman
|
Mirek Melichar
|
Vincenzo Pallotta
|
Gianna Tsakou
|
Basilis Kladis
|
Anestis Vovos
|
Jettie Hoonhout
|
Dietmar Schuchardt
|
Nikos Fakotakis
|
Todor Ganchev
|
Ilyas Potamitis
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)
pdf
bib
Speech Recognition Simulation and its Application for Wizard-of-Oz Experiments
Alex Trutnev
|
Antoine Rozenknop
|
Martin Rajman
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)
pdf
bib
Comparative Evaluations in the Domain of Automatic Speech Recognition
Alex Trutnev
|
Martin Rajman
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)
pdf
bib
Automatic Keyword Extraction from Spoken Text. A Comparison of Two Lexical Resources: EDR and WordNet
Lonneke van der Plas
|
Vincenzo Pallotta
|
Martin Rajman
|
Hatem Ghorbel
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)
2003
pdf
bib
abs
Apprentissage discriminant pour les Grammaires à Substitution d’Arbres
Antoine Rozenknop
|
Jean-Cédric Chappelier
|
Martin Rajman
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Les grammaires stochastiques standards utilisent des modèles probabilistes de nature générative, fondés sur des probabilités de récriture conditionnées par le symbole récrit. Les expériences montrent qu’elles tendent ainsi par nature à pénaliser les dérivations les plus longues pour une meme entrée, ce qui n’est pas forcément un comportement souhaitable, ni en analyse syntaxique, ni en reconnaissance de la parole. Dans cet article, nous proposons une approche probabiliste non-générative du modèle STSG (grammaire stochastique à substitution d’arbres), selon laquelle les probabilités sont conditionnées par les feuilles des arbres syntaxiques plutot que par leur racine, et qui par nature fait appel à un apprentissage discriminant. Plusieurs expériences sur ce modèle sont présentées.
pdf
bib
abs
Prototypage rapide et évaluation de modèles de dialogue finalisés
Martin Rajman
|
Andréa Rajman
|
Florian Seydoux
|
Alex Trutnev
Actes de la 10ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
L’objectif de cette contribution est de présenter l’intégration de la notion d’évaluation dans la méthodologie de prototypage rapide de modèles de dialogue développée et mise en oeuvre dans le cadre du projet InfoVox. L’idée centrale de cette méthodologie est de dériver un modèle de dialogue opérationnel directement à partir du modèle de la tâche à laquelle il est associé. L’intégration systématique de différents aspects de l’évaluation dans le processus de prototypage est alors utile afin d’identifier, dès la phase de conception, les qualités et défauts de l’interface. Toutes les conclusions présentées seront illustrées par des résultats concrets obtenus au cours d’expériences réalisées dans le cadre du projet InfoVox.
2002
pdf
bib
abs
Filtrages syntaxiques de co-occurrences pour la représentation vectorielle de documents
Romaric Besançon
|
Martin Rajman
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
L’intégration de co-occurrences dans les modèles de représentation vectorielle de documents s’est avérée une source d’amélioration de la pertinence des mesures de similarités textuelles calculées dans le cadre de ces modèles (Rajman et al., 2000; Besançon, 2001). Dans cette optique, la définition des contextes pris en compte pour les co-occurrences est cruciale, par son influence sur les performances des modèles à base de co-occurrences. Dans cet article, nous proposons d’étudier deux méthodes de filtrage des co-occurrences fondées sur l’utilisation d’informations syntaxiques supplémentaires. Nous présentons également une évaluation de ces méthodes dans le cadre de la tâche de la recherche documentaire.
pdf
bib
abs
Polynomial Tree Substitution Grammars: Characterization and New Examples
Jean-Cédric Chappelier
|
Martin Rajman
|
Antoine Rozenknop
Actes de la 9ème conférence sur le Traitement Automatique des Langues Naturelles. Posters
Polynomial Tree Substitution Grammars, a subclass of STSGs for which finding the most probable parse is no longer NP-hard but polynomial, are defined and characterized in terms of general properties on the elementary trees in the grammar. Various sufficient and easy to compute properties for a STSG to be polynomial are presented. The min-max selection principle is shown to be one such sufficient property. In addition, another, new, instance of a sufficient property, based on lexical heads, is presented. The performances of both models are evaluated on several corpora.
pdf
bib
Automatic Ranking of MT Systems
Martin Rajman
|
Anthony Hartley
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)
pdf
bib
Evaluation of a Vector Space Similarity Measure in a Multilingual Framework
Romaric Besançon
|
Martin Rajman
Proceedings of the Third International Conference on Language Resources and Evaluation (LREC’02)
2001
pdf
bib
abs
Automatically predicting MT systems rankings compatible with fluency, adequacy and informativeness scores
Martin Rajman
|
Tony Hartley
Workshop on MT Evaluation
The main goal of the work presented in this paper is to find an inexpensive and automatable way of predicting rankings of MT systems compatible with human evaluations of these systems expressed in the form of Fluency, Adequacy or Informativeness scores. Our approach is to establish whether there is a correlation between rankings derived from such scores and the ones that can be built on the basis of automatically computable attributes of syntactic or semantic nature. We present promising results obtained on the DARPA94 MT evaluation corpus.
pdf
bib
abs
Intégration probabiliste de sens dans la représentation de textes
Romaric Besançon
|
Antoine Rozenknop
|
Jean-Cédric Chappelier
|
Martin Rajman
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Le sujet du présent article est l’intégration des sens portés par les mots en contexte dans une représentation vectorielle de textes, au moyen d’un modèle probabiliste. La représentation vectorielle considérée est le modèle DSIR, qui étend le modèle vectoriel (VS) standard en tenant compte à la fois des occurrences et des co-occurrences de mots dans les documents. L’intégration des sens dans cette représentation se fait à l’aide d’un modèle de Champ de Markov avec variables cachées, en utilisant une information sémantique dérivée de relations de synonymie extraites d’un dictionnaire de synonymes.
pdf
bib
abs
Grammaire à substitution d’arbre de complexité polynomiale : un cadre efficace pour DOP
Jean-Cédric Chappelier
|
Martin Rajman
Actes de la 8ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Trouver l’arbre d’analyse le plus probable dans le cadre du modèle DOP (Data-Oriented Parsing) — une version probabiliste de grammaire à substitution d’arbres développée par R. Bod (1992) — est connu pour être un problème NP-difficile dans le cas le plus général (Sima’an, 1996a). Cependant, si l’on introduit des restrictions a priori sur le choix des arbres élémentaires, on peut obtenir des instances particulières de DOP pour lesquelles la recherche de l’arbre d’analyse le plus probable peut être effectuée en un temps polynomial (par rapport à la taille de la phrase à analyser). La présente contribution se propose d’étudier une telle instance polynomiale de DOP, fondée sur le principe de sélection miminale-maximale et d’en évaluer les performances sur deux corpus différents.
2000
pdf
bib
Development of Acoustic and Linguistic Resources for Research and Evaluation in Interactive Vocal Information Servers
Giulia Bernardis
|
Hervé Bourlard
|
Martin Rajman
|
Jean-Cédric Chappelier
Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00)