Anna Kupść

Also published as: Anna Kupsc


2024

pdf bib
Optimisation des performances d’un système de reconnaissance automatique de la parole pour les commentaires sportifs: fine-tuning de Whisper
Camille Lavigne | Alex Stasica | Anna Kupsc
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

Malgré les performances élevées des systèmes automatiques de reconnaissance de la parole (Automatic Speech Recognition ; ASR) sur des corpus généraux, leur efficacité est considérablement réduite lorsqu’ils sont confrontés à des corpus spécialisés. Ces corpus peuvent notamment contenir du lexique propre à des domaines spécifiques, des accents ou du bruit de fond rendant la transcription ardue. Cette étude vise à évaluer les avantages de l’optimisation d’une transcription automatique, par opposition à manuelle, après fine-tuning d’un modèle d’ASR de dernière génération, Whisper (Radford et al., 2023), sur un corpus spécialisé de commentaires sportifs de petite taille. Nos analyses quantitatives et qualitatives indiquent que Whisper est capable d’apprendre les particularités d’un corpus de spécialité, atteignant des performances égales où supérieures aux transcripteurs humains, avec cette quantité de données limitée. Cette recherche met en lumière le rôle que l’intelligence artificielle, notamment les larges modèles de langage, peut jouer pour faciliter la création de corpus spécialisés.

2014

pdf bib
Automated Analysis for Stem Spaces: the case of French verbs (Analyse automatique d’espaces thématiques) [in French]
Gilles Boyé | Anna Kupść
Proceedings of TALN 2014 (Volume 2: Short Papers)

2009

pdf bib
Treelex Meets Adjectival Tables
Anna Kupść
Proceedings of the International Conference RANLP-2009

2007

pdf bib
Extraction automatique de cadres de sous-catégorisation verbale pour le français à partir d’un corpus arboré
Anna Kupsc
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Nous présentons une expérience d’extraction automatique des cadres de souscatégorisation pour 1362 verbes français. Nous exploitons un corpus journalistique richement annoté de 15 000 phrases dont nous extrayons 12 510 occurrences verbales. Nous évaluons dans un premier temps l’extraction des cadres basée sur la fonction des arguments, ce qui nous fournit 39 cadres différents avec une moyenne de 1.54 cadres par lemme. Ensuite, nous adoptons une approche mixte (fonction et catégorie syntaxique) qui nous fournit dans un premier temps 925 cadres différents, avec une moyenne de 3.44 cadres par lemme. Plusieurs méthodes de factorisation, neutralisant en particulier les variantes de réalisation avec le passif ou les pronoms clitiques, sont ensuite appliquées et nous permettent d’aboutir à 235 cadres différents avec une moyenne de 1.94 cadres par verbe. Nous comparons brièvement nos résultats avec les travaux existants pour le français et pour l’anglais.

pdf bib
Lemmatization of Polish Person Names
Jakub Piskorski | Marcin Sydow | Anna Kupść
Proceedings of the Workshop on Balto-Slavonic Natural Language Processing

2004

pdf bib
Pronominal Anaphora Resolution for Unrestricted Text
Anna Kupść | Teruko Mitamura | Benjamin Van Durme | Eric Nyberg
Proceedings of the Fourth International Conference on Language Resources and Evaluation (LREC’04)

2003

pdf bib
Towards light semantic processing for question answering
Benjamin Van Durme | Yifen Huang | Anna Kupść | Eric Nyberg
Proceedings of the HLT-NAACL 2003 Workshop on Text Meaning

pdf bib
Two Approaches to Aspect Assignment in an English-Polish Machine Translation System
Anna Kupsc
Proceedings of the 7th International EAMT workshop on MT and other language technology tools, Improving MT through other language technology tools, Resource and tools for building MT at EACL 2003

2000

pdf bib
An HPSG-Annotated Test Suite for Polish
Malgorzata Marciniak | Agnieszka Mykowiecka | Anna Kupść | Adam Przepiórkowski
Proceedings of the Second International Conference on Language Resources and Evaluation (LREC’00)