William N. Havard

Also published as: William N. Havard

2025

pdf bib abs
Speech Technologies with Fieldwork Recordings: the Case of Haitian Creole
William N. Havard | Renauld Govain | Benjamin Lecouteux | Emmanuel Schang
Proceedings of the Eight Workshop on the Use of Computational Methods in the Study of Endangered Languages

We use 40-year-old digitalised tape-recorded fieldwork data in Haitian Creole to train a native self-supervised learning (SSL) model of speech representation (WAV2VEC2). We also use a continued pre-training approach on pre-trained SSL models of two foreign languages: the lexifier language – French – and an unrelated language – English. We compare the performances of these three SSL models, and of two other foreign SSL models directly finetuned, on an ASR task, where all five models are fine-tuned on transcribed fieldwork recordings in Haitian Creole. Our results show the best-performing model is the one trained using a continued pre-training approach on the lexifier language, followed by the native model. We conclude that the ‘mobilising the archive’-approach advocated by (Bird, 2020) is a promising way forward to design speech technologies for new languages.

pdf bib abs
Exploration de la séparation en langues dans les modèles de traitement de la parole auto-supervisés multilingues préentraînés avec des données écologiques
William N. Havard | Shrita Hassamal | Muhsina Alleesaib | Guilhem Florigny | Guillaume Fon Sing | Anne Abeillé | Benjamin Lecouteux | Emmanuel Schang
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

Les modèles auto-supervisés omnilingues de traitement de la parole sont adaptables mais manquent de plausibilité écologique et cognitive. Entraînés sur des corpus monolingues, ils négligent le multi- linguisme réel et le code-switching. De précédents travaux suggèrent que de tels modèles procèdent à des regroupements en langues dans l’espace latent, mais cela pourrait être dû à des biais acoustiques ou paralinguistiques plutôt qu’à de véritables traitements linguistiques. Nous avons entraîné un modèle WAV2VEC2 sur des données multilingues de Maurice, incluant des locuteurs plurilingues et du code-switching, et avons étudié les représentations latentes du modèle. Nos analyses montrent que les facteurs acoustiques et paralinguistiques sont encodés sans apprentissage actif, tandis que le regroupement par langue émerge avec un réel apprentissage. Ces résultats éclairent ainsi sur les véritable capacités linguistiques et paralinguistiques des modèles auto-supervisés de la parole.

pdf bib abs
Modèles auto-supervisés de traitement de la parole pour le Créole Haitien
William N. Havard | Renauld Govain | Benjamin Lecouteux | Emmanuel Schang
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux

Nous développons des modèles de traitement de la parole spécifiquement dédiés au créole haïtien (kreyòl), le positionnant ainsi comme une langue bien dotée en termes de modèles auto-supervisés de traitement de la parole. Pour ce faire, nous pré-entraînons des modèles monolingues WAV2VEC2BASE,WAV2VEC2-L ARGE etDATA 2VEC-AUDIO -BASEà partir de zéro, qui sont ensuite affinés pour une tâche de reconnaissance automatique de la parole. Nous comparons la performance de ces modèles avec des modèles affinés à partir de modèles multilingues (XLSR-53, XLSR2-300 M, MMS-1B) et monolingues basés sur le français (LEBENCHMARK 1 à 7K). Nos résultats démontrent l’efficacité du pré-entraînement monolingue, avec des performances pouvant rivaliser, voire surpasser, celle de grands modèles multilingues. Ce travail propose ainsi des modèles robustes de reconnaissance vocale pour le kreyòl , adaptables à d’autres créoles français des Caraïbes, contribuant ainsi au développement technologique de ces langues peu dotées.

2024

pdf bib abs
Technologies de la parole et données de terrain : le cas du créole haïtien
William N. Havard | Renauld Govain | Daphne Gonçalves Teixeira | Benjamin Lecouteux | Emmanuel Schang
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

Nous utilisons des données de terrain en créole haïtien, récoltées il y a $40$ ans sur cassettes puis numérisées, pour entraîner un modèle natif d’apprentissage auto-supervisé (SSL) de la parole (Wav2Vec2) en haïtien. Nous utilisons une approche de pré-entraînement continu (CPT) sur des modèles SSL pré-entraînés de deux langues étrangères : la langue lexificatrice – le français – et une langue non apparentée – l’anglais. Nous comparons les performances de ces trois modèles SSL, et de deux autres modèles SSL étrangers directement affinés, sur une tâche de reconnaissance de la parole. Nos résultats montrent que le modèle le plus performant est celui qui a été entraîné en utilisant une approche CPT sur la langue lexificatrice, suivi par le modèle natif. Nous concluons que l’approche de ”mobilisation des archives” préconisée par (Bird, 2020) est une voie prometteuse pour concevoir des technologies vocales pour de nouvelles langues.

2021

pdf bib abs
Contribution d’informations syntaxiques aux capacités de généralisation compositionelle des modèles seq2seq convolutifs (Assessing the Contribution of Syntactic Information for Compositional Generalization of seq2seq Convolutional Networks)
Diana Nicoleta Popa | William N. Havard | Maximin Coavoux | Eric Gaussier | Laurent Besacier
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

Les modèles neuronaux de type seq2seq manifestent d’étonnantes capacités de prédiction quand ils sont entraînés sur des données de taille suffisante. Cependant, ils échouent à généraliser de manière satisfaisante quand la tâche implique d’apprendre et de réutiliser des règles systématiques de composition et non d’apprendre simplement par imitation des exemples d’entraînement. Le jeu de données SCAN, constitué d’un ensemble de commandes en langage naturel associées à des séquences d’action, a été spécifiquement conçu pour évaluer les capacités des réseaux de neurones à apprendre ce type de généralisation compositionnelle. Dans cet article, nous nous proposons d’étudier la contribution d’informations syntaxiques sur les capacités de généralisation compositionnelle des réseaux de neurones seq2seq convolutifs.

2019

pdf bib abs
Word Recognition, Competition, and Activation in a Model of Visually Grounded Speech
William N. Havard | Jean-Pierre Chevrot | Laurent Besacier
Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL)

In this paper, we study how word-like units are represented and activated in a recurrent neural model of visually grounded speech. The model used in our experiments is trained to project an image and its spoken description in a common representation space. We show that a recurrent model trained on spoken sentences implicitly segments its input into word-like units and reliably maps them to their correct visual referents. We introduce a methodology originating from linguistics to analyse the representation learned by neural networks – the gating paradigm – and show that the correct representation of a word is only activated if the network has access to first phoneme of the target word, suggesting that the network does not rely on a global acoustic pattern. Furthermore, we find out that not all speech frames (MFCC vectors in our case) play an equal role in the final encoded representation of a given word, but that some frames have a crucial effect on it. Finally we suggest that word representation could be activated through a process of lexical competition.