Les métriques d’évaluation sont utilisées comme des indicateurs pour évaluer les systèmes de résumé abstractif lorsque les annotations sont trop coûteuses. Pour être utiles, ces métriques doivent permettre une évaluation fine, présenter une forte corrélation avec les annotations humaines, et idéalement ne pas dépendre de la qualité des références. Cependant la plupart des métriques d’évaluation standard pour le résumé sont basées sur des références, et les métriques sans références sont faiblement corrélées à la pertinence des résumés, en particulier pour des documents longs. Dans cet article, nous introduisons une métrique sans référence qui corrèle bien avec la pertinence telle qu’évaluée par des humains, tout en étant très peu coûteuse à calculer. Nous montrons également que cette métrique peut être utilisée en complément de métriques basées sur des références afin d’améliorer leur robustesse dans des situations où la qualité des références est faible.
Tout contenu numérique devrait garantir l’accessibilité visuelle en incluant des textes alternatifs aux images. En l’absence de système et de métrique d’évaluation adaptés, nous présentons nos recherches préliminaires sur la génération et l’évaluation de textes alternatifs, d’abord dans un contexte générique. Dans une démarche d’inclusion scolaire, nous mettons en lumière les limites des systèmes existants et les contraintes à prendre en compte pour envisager un système applicable aux manuels scolaires.
Automatic metrics are used as proxies to evaluate abstractive summarization systems when human annotations are too expensive. To be useful, these metrics should be fine-grained, show a high correlation with human annotations, and ideally be independant of reference quality; however, most standard evaluation metrics for summarization are reference-based, and existing reference-free metrics correlates poorly with relevance, especially on summaries of longer documents. In this paper, we introduce a reference-free metric that correlates well with human evaluated relevance, while being very cheap to compute. We show that this metric can also be used along reference-based metrics to improve their robustness in low quality reference settings.