Pierre Magistry


2024

pdf bib
Experiments on Speech Synthesis for Teochew, Can Taiwanese Help ?
Pierre Magistry | Ilaine Wang | Ty Eng Lim
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)

This paper reports on our preliminary experiments in speech processing for Teochew, an under-resourced Sinitic language spoken both in China and around the world in diasporan communities. Following the recent uptick of interest in Teochew from heritage speakers of the diaspora and in order to respond to the needs of this community, we develop a Teochew Text-to-Speech system. We describe experiments to build this system and to assess the possible contribution of available resources in Taiwanese Hokkien, the closest language with a significant body of resources. The results of these experiments are not as conclusive as we expected: the Taiwanese dataset did not help our model significantly, but considering our objectives, we find it encouraging that they show that a large training dataset was not necessary for this precise task. A promising model could still be obtained with only a small dataset of Teochew. We hope that this work inspires other communities of speakers of languages in a revitalization phase.

2023

pdf bib
Ertim at SemEval-2023 Task 2: Fine-tuning of Transformer Language Models and External Knowledge Leveraging for NER in Farsi, English, French and Chinese
Kevin Deturck | Pierre Magistry | Bénédicte Diot-Parvaz Ahmad | Ilaine Wang | Damien Nouvel | Hugo Lafayette
Proceedings of the 17th International Workshop on Semantic Evaluation (SemEval-2023)

Transformer language models are now a solid baseline for Named Entity Recognition and can be significantly improved by leveraging complementary resources, either by integrating external knowledge or by annotating additional data. In a preliminary step, this work presents experiments on fine-tuning transformer models. Then, a set of experiments has been conducted with a Wikipedia-based reclassification system. Additionally, we conducted a small annotation campaign on the Farsi language to evaluate the impact of additional data. These two methods with complementary resources showed improvements compared to fine-tuning only.

2022

pdf bib
(Re-)Digitizing 吳守禮 Ngôo Siú-lé’s Mandarin – Taiwanese Dictionary
Pierre Magistry | Afala Phaxay
Proceedings of the 2nd International Workshop on Natural Language Processing for Digital Humanities

This paper presents the efforts conducted to obtain a usable and open digital version in XML-TEI of one of the major lexicographic work for bilingual Taiwanese dictionaries, namely the 《國臺對照活用辭典》(Practical Mandarin-Taiwanese Dictionary) The original dictionary was published in 2000, after decades of work by Prof. 吳守禮 (Ngôo Siu-le/Wu Shouli)

2020

pdf bib
Contextual Characters with Segmentation Representation for Named Entity Recognition in Chinese
Baptiste Blouin | Pierre Magistry
Proceedings of the 34th Pacific Asia Conference on Language, Information and Computation

pdf bib
Répliquer et étendre pour l’alsacien “Étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux” (Replicating and extending for Alsatian : “POS tagging for low-resource languages by adapting word embeddings”)
Alice Millour | Karën Fort | Pierre Magistry
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). 2e atelier Éthique et TRaitemeNt Automatique des Langues (ETeRNAL)

Nous présentons ici les résultats d’un travail de réplication et d’extension pour l’alsacien d’une expérience concernant l’étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux (Magistry et al., 2018). Ce travail a été réalisé en étroite collaboration avec les auteurs de l’article d’origine. Cette interaction riche nous a permis de mettre au jour les éléments manquants dans la présentation de l’expérience, de les compléter, et d’étendre la recherche à la robustesse à la variation.

2018

pdf bib
Étiquetage en parties du discours de langues peu dotées par spécialisation des plongements lexicaux (POS tagging for low-resource languages by adapting word embeddings )
Pierre Magistry | Anne-Laure Ligozat | Sophie Rosset
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Cet article présente une nouvelle méthode d’étiquetage en parties du discours adaptée aux langues peu dotées : la définition du contexte utilisé pour construire les plongements lexicaux est adaptée à la tâche, et de nouveaux vecteurs sont créés pour les mots inconnus. Les expériences menées sur le picard, le malgache et l’alsacien montrent que cette méthode améliore l’état de l’art pour ces trois langues peu dotées.

pdf bib
Corpora with Part-of-Speech Annotations for Three Regional Languages of France: Alsatian, Occitan and Picard
Delphine Bernhard | Anne-Laure Ligozat | Fanny Martin | Myriam Bras | Pierre Magistry | Marianne Vergez-Couret | Lucie Steiblé | Pascale Erhart | Nabil Hathout | Dominique Huck | Christophe Rey | Philippe Reynés | Sophie Rosset | Jean Sibille | Thomas Lavergne
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)

2016

pdf bib
Indices phonologiques des sinogrammes : de l’étude de l’acquisition à la modélisation pour l’apprentissage [Phonological cues in sinograms: from studying acquisition to modeling for learning]
Pierre Magistry | Murielle Fabre | Yoann Goudin
Traitement Automatique des Langues, Volume 57, Numéro 3 : TALP et didactique [NLP for Learning and Teaching]

pdf bib
Design of an Input Method for Taiwanese Hokkien using Unsupervized Word Segmentation for Language Modeling
Pierre Magistry
Proceedings of the 28th Conference on Computational Linguistics and Speech Processing (ROCLING 2016)

2014

pdf bib
BACANAL: Short Length Random Walks For Lexical Analysis, Application to lexical substitution (BACANAL : Balades Aléatoires Courtes pour ANAlyses Lexicales Application à la substitution lexicale) [in French]
Yann Desalle | Emmanuel Navarro | Yannick Chudy | Pierre Magistry | Bruno Gaume
TALN-RECITAL 2014 Workshop SemDis 2014 : Enjeux actuels de la sémantique distributionnelle (SemDis 2014: Current Challenges in Distributional Semantics)

pdf bib
Skillex: a graph-based lexical score for measuring the semantic efficiency of used verbs by human subjects describing actions
Bruno Gaume | Karine Duvignau | Emmanuel Navarro | Yann Desalle | Hintat Cheung | Shu-Kai Hsieh | Pierre Magistry | Laurent Prévot
Traitement Automatique des Langues, Volume 55, Numéro 3 : Traitement automatique du langage naturel et sciences cognitives [Natural Language Processing and Cognitive Sciences]

pdf bib
CELLO: Understanding the responses of data to requests (CELLO : comprendre les réponses des données aux requêtes) [in French]
Yannick Chudy | Yann Desalle | Bruno Gaume | Emmanuel Navarro | Pierre Magistry
Proceedings of TALN 2014 (Volume 3: System Demonstrations)

2013

pdf bib
Can MDL Improve Unsupervised Chinese Word Segmentation?
Pierre Magistry | Benoît Sagot
Proceedings of the Seventh SIGHAN Workshop on Chinese Language Processing

pdf bib
Tmuse: Lexical Network Exploration
Yannick Chudy | Yann Desalle | Benoît Gaillard | Bruno Gaume | Pierre Magistry | Emmanuel Navarro
The Companion Volume of the Proceedings of IJCNLP 2013: System Demonstrations

2012

pdf bib
Segmentation non supervisée : le cas du mandarin (Unsupervized Word Segmentation) [in French]
Pierre Magistry
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 3: RECITAL

pdf bib
Unsupervized Word Segmentation: the Case for Mandarin Chinese
Pierre Magistry | Benoît Sagot
Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers)

2011

pdf bib
Segmentation et induction de lexique non-supervisées du mandarin (Unsupervised segmentation and induction of mandarin lexicon)
Pierre Magistry | Benoît Sagot
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Pour la plupart des langues utilisant l’alphabet latin, le découpage d’un texte selon les espaces et les symboles de ponctuation est une bonne approximation d’un découpage en unités lexicales. Bien que cette approximation cache de nombreuses difficultés, elles sont sans comparaison avec celles que l’on rencontre lorsque l’on veut traiter des langues qui, comme le chinois mandarin, n’utilisent pas l’espace. Un grand nombre de systèmes de segmentation ont été proposés parmi lesquels certains adoptent une approche non-supervisée motivée linguistiquement. Cependant les méthodes d’évaluation communément utilisées ne rendent pas compte de toutes les propriétés de tels systèmes. Dans cet article, nous montrons qu’un modèle simple qui repose sur une reformulation en termes d’entropie d’une hypothèse indépendante de la langue énoncée par Harris (1955), permet de segmenter un corpus et d’en extraire un lexique. Testé sur le corpus de l’Academia Sinica, notre système permet l’induction d’une segmentation et d’un lexique qui ont de bonnes propriétés intrinsèques et dont les caractéristiques sont similaires à celles du lexique sous-jacent au corpus segmenté manuellement. De plus, on constate une certaine corrélation entre les résultats du modèle de segmentation et les structures syntaxiques fournies par une sous-partie arborée corpus.

2010

pdf bib
The Use of a Cultural Protocol for Quantifying Cultural Variations in Comparing Verb Semantic between Chinese and French
Hintat Cheung | Yann Desalle | Karine Duvignau | Bruno Gaume | Chunhan Chang | Pierre Magistry
Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation

pdf bib
Graph Representation of Synonymy and Translation Resources for Crosslinguistic Modelisation of Meaning
Benoît Gaillard | Yannick Chudy | Pierre Magistry | Shu-Kai Hsieh | Emmanuel Navarro
Proceedings of the 24th Pacific Asia Conference on Language, Information and Computation

2009

pdf bib
Using Extra-Linguistic Material for Mandarin-French Verbal Constructions Comparison
Pierre Magistry | Laurent Prévot | Hintat Cheung | Chien-yun Shiao | Yann Desalle | Bruno Gaume
Proceedings of the 23rd Pacific Asia Conference on Language, Information and Computation, Volume 1

pdf bib
Wiktionary for Natural Language Processing: Methodology and Limitations
Emmanuel Navarro | Franck Sajous | Bruno Gaume | Laurent Prévot | ShuKai Hsieh | Ivy Kuo | Pierre Magistry | Chu-Ren Huang
Proceedings of the 2009 Workshop on The People’s Web Meets NLP: Collaboratively Constructed Semantic Resources (People’s Web)