2022
pdf
bib
abs
A Methodology for the Comparison of Human Judgments With Metrics for Coreference Resolution
Mariya Borovikova
|
Loïc Grobol
|
Anaïs Halftermeyer
|
Sylvie Billot
Proceedings of the 2nd Workshop on Human Evaluation of NLP Systems (HumEval)
We propose a method for investigating the interpretability of metrics used for the coreference resolution task through comparisons with human judgments. We provide a corpus with annotations of different error types and human evaluations of their gravity. Our preliminary analysis shows that metrics considerably overlook several error types and overlook errors in general in comparison to humans. This study is conducted on French texts, but the methodology is language-independent.
2020
pdf
bib
abs
Comment arpenter sans mètre : les scores de résolution de chaînes de coréférences sont-ils des métriques ? (Do the standard scores of evaluation of coreference resolution constitute metrics ?)
Adam Lion-Bouton
|
Loïc Grobol
|
Jean-Yves Antoine
|
Sylvie Billot
|
Anaïs Lefeuvre-Halftermeyer
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). 2e atelier Éthique et TRaitemeNt Automatique des Langues (ETeRNAL)
Cet article présente un travail qui consiste à étudier si les scores les plus utilisés pour l’évaluation de la résolution des coréférences constituent des métriques de similarité normalisées. En adoptant une démarche purement expérimentale, nous avons vérifié si les scores MUC, B3 , CEAF, BLANC, LEA et le meta-score CoNLL respectent les bonnes propriétés qui définissent une telle métrique. Notre étude montre que seul le score CEAFm est potentiellement une métrique de similarité normalisée.
2011
pdf
bib
abs
Intégrer des connaissances linguistiques dans un CRF : application à l’apprentissage d’un segmenteur-étiqueteur du français (Integrating linguistic knowledge in a CRF: application to learning a segmenter-tagger of French)
Matthieu Constant
|
Isabelle Tellier
|
Denys Duchier
|
Yoann Dupont
|
Anthony Sigogne
|
Sylvie Billot
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous synthétisons les résultats de plusieurs séries d’expériences réalisées à l’aide de CRF (Conditional Random Fields ou “champs markoviens conditionnels”) linéaires pour apprendre à annoter des textes français à partir d’exemples, en exploitant diverses ressources linguistiques externes. Ces expériences ont porté sur l’étiquetage morphosyntaxique intégrant l’identification des unités polylexicales. Nous montrons que le modèle des CRF est capable d’intégrer des ressources lexicales riches en unités multi-mots de différentes manières et permet d’atteindre ainsi le meilleur taux de correction d’étiquetage actuel pour le français.
1989
pdf
bib
The Structure of Shared Forests in Ambiguous Parsing
Sylvie Billot
|
Bernard Lang
27th Annual Meeting of the Association for Computational Linguistics