Antoine Boiteau


2025

La disponibilité de corpus annotés en coréférence demeure une nécessité pour de nombreux travaux en linguistique et en TAL. Toutefois, si de tels corpus sont bien disponibles, une part importante repose sur des modèles d’annotation ne permettant d’encoder qu’une partie des informations liées aux phénomènes coréférentiels. Après avoir redéfini un modèle élargi de la coréférence, nous montrerons les bénéfices d’une annotation menée à deux niveaux, celui de l’inscription des occurrences dans le texte (le repérage des maillons des chaînes de coréférence, niveau largement exploré) et celui des structures du modèle référentiel inféré (la clarification des rapports entre les entités désignées, domaine largement passé sous silence). Nous présenterons ensuite l’environnement OPERA destiné à l’annotation selon ce modèle repensé, et une campagne menée pour le tester.

2024

Les mesures d’accord inter-annotateurs sont essentielles pour évaluer la qualité des annotations humaines sur les corpus. Dans le cadre des structures relationnelles, la question de la qualité et de l’interprétabilité de ces mesures reste cependant ouverte. Cet article présente l’adaptation d’un outil déjà utilisé pour d’autres paradigmes d’annotation dont le but est de générer de manière contrôlée des annotations artificielles erronées. Les annotations obtenues sont fournies à des mesures d’accord adaptées aux structures relationnelles, permettant l’identification des comportements des mesures ainsi que les différences entre elles.