2024
pdf
bib
abs
Decode, Move and Speak! Self-supervised Learning of Speech Units, Gestures, and Sound Relationships Using Vocal Imitation
Marc-Antoine Georges
|
Marvin Lavechin
|
Jean-Luc Schwartz
|
Thomas Hueber
Computational Linguistics, Volume 50, Issue 4 - December 2024
Speech learning encompasses mastering a complex motor system to produce speech sounds from articulatory gestures while simultaneously uncovering discrete units that provide entry to the linguistic system. Remarkably, children acquire these associations between speech sounds, articulatory gestures, and linguistic units in a weakly supervised manner, without the need for explicit labeling of auditory inputs or access to target articulatory gestures. This study uses self-supervised deep learning to investigate the respective roles of sounds, gestures, and linguistic units in speech acquisition and control. In a first experiment, we analyzed the quantized representations learned by vector-quantized variational autoencoders (VQ-VAE) from ground truth acoustic and articulatory data using ABX tests. We show an interesting complementarity between acoustic and articulatory modalities that may help in the discovery of phonemes. In a second experiment, we introduce a computational agent that repeats auditory speech inputs by controlling a virtual vocal apparatus. This agent integrates an articulatory synthesizer capable of reproducing diverse speech stimuli from interpretable parameters, along with two internal models implementing the articulatory-to-acoustic (forward) and acoustic-to-articulatory (inverse) mapping, respectively. Additionally, two inductive biases are used to regularize the ill-posed acoustic-to-articulatory inverse mapping. In line with the first experiment, we explore the complementarity between the auditory input and the articulatory parameters inferred by the agent. We also evaluate the impact of discretizing auditory inputs using VQ-VAE. While the majority of the agent’s productions are intelligible (according to perceptual evaluations), our analysis highlights inconsistencies in the underlying articulatory trajectories. In particular, we show that the agent’s productions only partially reproduce the complementarity between the auditory and articulatory modalities observed in humans.
2016
pdf
bib
abs
De bé à bébé : le transfert d’apprentissage auditori-moteur pour interroger l’unité de production de la parole (From sensorimotor experience to speech unit)
Tiphaine Caudrelier
|
Pascal Perrier
|
Jean-Luc Schwartz
|
Christophe Savariaux
|
Amélie Rochet-Capellan
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
La parole est souvent décrite comme une mise en séquence d’unités associant des représentations linguistiques, sensorielles et motrices. Le lien entre ces représentations se fait-il de manière privilégiée sur une unité spécifique ? Par exemple, est-ce la syllabe ou le mot ? Dans cette étude, nous voulons contraster ces deux hypothèses. Pour cela, nous avons modifié chez des locuteurs du français la production de la syllabe « bé », selon un paradigme d’adaptation auditori-motrice, consistant à perturber le retour auditif. Nous avons étudié comment cette modification se transfère ensuite à la production du mot « bébé ». Les résultats suggèrent un lien entre représentations linguistiques et motrices à plusieurs niveaux, à la fois celui du mot et de la syllabe. Ils montrent également une influence de la position de la syllabe dans le mot sur le transfert, qui soulève de nouvelles questions sur le contrôle sériel de la parole.
2012
pdf
bib
COSMO, un modèle bayésien de la communication parlée :application à la perception des syllabes (COSMO, a Bayesian model of speech communication, applied to syllable perception) [in French]
Raphaël Laurent
|
Jean-Luc Schwartz
|
Pierre Bessière
|
Julien Diard
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP
pdf
bib
Dynamique temporelle du liage dans la fusion de la parole audiovisuelle (Temporal dynamics of binding in audiovisual speech fusion) [in French]
Olha Nahorna
|
Frédéric Berthommier
|
Jean-Luc Schwartz
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP
pdf
bib
Mise au point d’un paradigme de perturbation motrice pour l’étude de la perception de la parole (Defining a motor perturbation paradigm for speech perception studies) [in French]
Ali Hadian Cefidekhanie
|
Christophe Savariaux
|
Marc Sato
|
Jean-Luc Schwartz
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 1: JEP