Antoine Widlöcher

2025

Intégration des relations inter-référents dans l’annotation de la coréférence : modèle et application
Antoine Boiteau | Yann Mathet | Antoine Widlöcher
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

La disponibilité de corpus annotés en coréférence demeure une nécessité pour de nombreux travaux en linguistique et en TAL. Toutefois, si de tels corpus sont bien disponibles, une part importante repose sur des modèles d’annotation ne permettant d’encoder qu’une partie des informations liées aux phénomènes coréférentiels. Après avoir redéfini un modèle élargi de la coréférence, nous montrerons les bénéfices d’une annotation menée à deux niveaux, celui de l’inscription des occurrences dans le texte (le repérage des maillons des chaînes de coréférence, niveau largement exploré) et celui des structures du modèle référentiel inféré (la clarification des rapports entre les entités désignées, domaine largement passé sous silence). Nous présenterons ensuite l’environnement OPERA destiné à l’annotation selon ce modèle repensé, et une campagne menée pour le tester.

2024

pdf bib abs

Quel workflow pour les sciences du texte ?
Antoine Widlöcher
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

Le triomphe des approches adossées à des méthodes d’apprentissage, dans de nombreuses branches de notre discipline, tend à occulter une part importante des domaines d’investigation pourtant intimement liée au traitement automatique des langues. Nous proposerons, pour commencer, de faire un pas dans la direction opposée, en faveur de ce que nous nommerons ici les sciences du texte, en les distinguant de l’ingénierie de la langue, dont l’omniprésence explique largement cette occultation. Nous voudrions ensuite contribuer à mettre en évidence la méthode propre à cette branche des savoirs, méthode commune pouvant permettre de faire sortir de l’isolement des travaux hétérogènes liés par un même rapport au texte. Nous voudrions enfin nous concentrer sur la phase de ce workflow qui demeure actuellement la plus difficile, celle de l’expérimentation sur corpus, et proposer un cadre pour la mise en place d’environnements d’expérimentation appropriés.

2022

pdf bib abs

Validity, Agreement, Consensuality and Annotated Data Quality
Anaëlle Baledent | Yann Mathet | Antoine Widlöcher | Christophe Couronne | Jean-Luc Manguin
Proceedings of the Thirteenth Language Resources and Evaluation Conference

Reference annotated (or gold-standard) datasets are required for various common tasks such as training for machine learning systems or system validation. They are necessary to analyse or compare occurrences or items annotated by experts, or to compare objects resulting from any computational process to objects annotated by experts. But, even if reference annotated gold-standard corpora are required, their production is known as a difficult problem, from both a theoretical and practical point of view. Many studies devoted to theses issues conclude that multi-annotation is most of the time a necessity. That inter-annotator agreement measure, which is required to check the reliability of data and the reproducibility of an annotation task, and thus to establish a gold standard, is another thorny problem. Fine analysis of available metrics for this specific task then becomes essential. Our work is part of this effort and more precisely focuses on several problems, which are rarely discussed, although they are intrinsically linked with the interpretation of metrics. In particular, we focus here on the complex relations between agreement and reference (of which agreement among annotators is supposed to be an indicator), and the emergence of consensus. We also introduce the notion of consensuality as another relevant indicator.

Stratégie d’exploration de corpus multi-annotés avec GlozzQL (Multi-annotated corpus exploration strategy with GlozzQL)
Yann Mathet | Antoine Widlöcher
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

La multiplication des travaux sur corpus, en linguistique computationnelle et en TAL, conduit à la multiplication des campagnes d’annotation et des corpus multi-annotés, porteurs d’informations relatives à des phénomènes variés, envisagés par des annotateurs multiples, parfois automatiques. Pour mieux comprendre les phénomènes que ces campagnes prennent pour objets, ou pour contrôler les données en vue de l’établissement d’un corpus de référence, il est nécessaire de disposer d’outils permettant d’explorer les annotations. Nous présentons une stratégie possible et son opérationalisation dans la plate-forme Glozz par le langage GlozzQL.

pdf bib

Aligner : un outil d’alignement et de mesure d’accord inter-annotateurs (Aligner: a tool for aligning and measuring inter-annotator agreement)
Yann Mathet | Antoine Widlöcher
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

pdf bib

GlozzQL : un langage de requêtes incrémental pour les textes annotés (GlozzQL: an incremental query language for annotated texts)
Yann Mathet | Antoine Widlöcher
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

pdf bib abs

Une approche holiste et unifiée de l’alignement et de la mesure d’accord inter-annotateurs (A holistic and unified approach to aligning and measuring inter-annotator agreement)
Yann Mathet | Antoine Widlöcher
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

L’alignement et la mesure d’accord sur des textes multi-annotés sont des enjeux majeurs pour la constitution de corpus de référence. Nous défendons dans cet article l’idée que ces deux tâches sont par essence interdépendantes, la mesure d’accord nécessitant de s’appuyer sur des annotations alignées, tandis que les choix d’alignements ne peuvent se faire qu’à l’aune de la mesure qu’ils induisent. Nous proposons des principes formels relevant cette gageure, qui s’appuient notamment sur la notion de désordre du système constitué par l’ensemble des jeux d’annotations d’un texte. Nous posons que le meilleur alignement est celui qui minimise ce désordre, et que la valeur de désordre obtenue rend compte simultanément du taux d’accord. Cette approche, qualifiée d’holiste car prenant en compte l’intégralité du système pour opérer, est algorithmiquement lourde, mais nous sommes parvenus à produire une implémentation d’une version légèrement dégradée de cette dernière, et l’avons intégrée à la plate-forme d’annotation Glozz.

2009

Le projet ANNODIS vise la construction d’un corpus de textes annotés au niveau discursif ainsi que le développement d’outils pour l’annotation et l’exploitation de corpus. Les annotations adoptent deux points de vue complémentaires : une perspective ascendante part d’unités de discours minimales pour construire des structures complexes via un jeu de relations de discours ; une perspective descendante aborde le texte dans son entier et se base sur des indices pré-identifiés pour détecter des structures discursives de haut niveau. La construction du corpus est associée à la création de deux interfaces : la première assiste l’annotation manuelle des relations et structures discursives en permettant une visualisation du marquage issu des prétraitements ; une seconde sera destinée à l’exploitation des annotations. Nous présentons les modèles et protocoles d’annotation élaborés pour mettre en oeuvre, au travers de l’interface dédiée, la campagne d’annotation.

pdf bib abs

La plate-forme Glozz : environnement d’annotation et d’exploration de corpus
Antoine Widlöcher | Yann Mathet
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

La nécessité d’une interaction systématique entre modèles, traitements et corpus impose la disponibilité d’annotations de référence auxquelles modèles et traitements pourront être confrontés. Or l’établissement de telles annotations requiert un cadre formel permettant la représentation d’objets linguistiques variés, et des applications permettant à l’annotateur de localiser sur corpus et de caractériser les occurrences des phénomènes observés. Si différents outils d’annotation ont vu le jour, ils demeurent souvent fortement liés à un modèle théorique et à des objets linguistiques particuliers, et ne permettent que marginalement d’explorer certaines structures plus récemment appréhendées expérimentalement, notamment à granularité élevée et en matière d’analyse du discours. La plate-forme Glozz répond à ces différentes contraintes et propose un environnement d’exploration de corpus et d’annotation fortement configurable et non limité a priori au contexte discursif dans lequel elle a initialement vu le jour.

pdf bib

La plate-forme d’annotation Glozz
Antoine Widlöcher | Yann Mathet
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

2008

pdf bib

Articulation des traitements en TAL. Principes méthodologiques et mise en œuvre dans la plate-forme LinguaStream [Scheduling natural language processing steps : Methodological principles and implemantation in the LinguaStream platform]
Antoine Widlöcher | Frédérik Bilhaut
Traitement Automatique des Langues, Volume 49, Numéro 2 : Plate-formes pour le traitement automatique des langues [Platforms for Natural Language Processing]

2006

pdf bib abs

Analyse par contraintes de l’organisation du discours
Antoine Widlöcher
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous abordons ici la question de l’analyse de la structure du discours, du point de vue de sa description formelle et de son traitement automatique. Nous envisageons l’hypothèse selon laquelle une approche par contraintes pourrait permettre la prise en charge de structures discursives variées d’une part, et de différents types d’indices de leur manifestation d’autre part. Le formalisme CDML que nous introduisons vise précisément une telle approche.

pdf bib

LinguaStream: An Integrated Environment for Computational Linguistics Experimentation
Frédérik Bilhaut | Antoine Widlöcher
Demonstrations

2005

pdf bib abs

La plate-forme LinguaStream : un outil d’exploration linguistique sur corpus
Antoine Widlöcher | Frédérik Bilhaut
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

À travers la présentation de la plate-forme LinguaStream, nous présentons certains principes méthodologiques et différents modèles d’analyse pouvant permettre l’articulation de traitements sur corpus. Nous envisageons en particulier les besoins nés de perspectives émergentes en TAL telles que l’analyse du discours.

2004

pdf bib abs

Analyse macro-sémantique: vers une analyse rhétorique du discours
Antoine Widlöcher
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)

S’inscrivant dans les domaines du TAL, de la linguistique sur corpus et de l’informatique documentaire, l’étude présentée ici opère plus précisément dans la perspective d’une analyse macrosémantique de la structuration discursive. Plus spécifiquement, nous proposons une analyse sémantique des structures rhétoriques du discours. Après avoir envisagé certaines voies ouvertes en la matière, nous définissons notre approche, et présentons les expérimentations conduites, dans le cadre du projet GeoSem, sur les structures énumératives dans le domaine géographique.