Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Christophe Benzitoun, Chloé Braud, Laurine Huber, David Langlois, Slim Ouni, Sylvain Pogodalla, Stéphane Schneider (Editors)

Anthology ID:: 2020.jeptalnrecital-jep
Month:: 6
Year:: 2020
Address:: Nancy, France
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA et AFCP
URL:: https://aclanthology.org/2020.jeptalnrecital-jep/
DOI:
Bib Export formats:: BibTeX MODS XML EndNote

BibTeX Search

pdf bib
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole
Christophe Benzitoun | Chloé Braud | Laurine Huber | David Langlois | Slim Ouni | Sylvain Pogodalla | Stéphane Schneider

pdf bib abs
‘Il était une fois’ les patterns prosodiques des contes de fée (‘Once upon a time’ prosodic patterns of fairy tales)
Rim Abrougui | Katarina Bartkova

Nous étudions ici la différence des patterns prosodiques entre deux styles de lecture, un que nous appelons ‘lecture littéraire neutre’ et un style de ‘lecture des contes’. Les données appartenant au style de ‘lecture de contes’ comportent deux sous-ensembles, des contes destinés aux jeunes enfants (0-6 ans) et des contes destinés aux enfants plus âgés et aux adultes. Les corpus ont été manuellement annotés avec des étiquettes sémantico-prosodiques exprimant des attitudes, des émotions et d’autres styles prosodiques. Une analyse détaillée des caractéristiques prosodiques nous a permis d’identifier les traits pertinents des patterns intonatifs des différentes étiquettes et des différents styles de lecture. Une quantification vectorielle, utilisant essentiellement des informations de F0, a été utilisée pour dégager les patterns prosodiques typiques correspondant aux différentes étiquettes. Une classification automatique basée sur des paramètres prosodiques a montré une bonne identification des étiquettes quand leur fréquence était suffisamment élevée pour obtenir une modélisation robuste.

pdf bib abs
Production de la continuation du français par des apprenants japonophones : gestion de la F0 et de la durée (Production of French continuation by Japanese learners : F0 and duration )
Rachel Albar

Dans cette étude, nous nous intéressons à la réalisation des contours de continuation en français, par des apprenants japonophones en parole semi-spontanée. Pour ce faire, nous avons analysé des productions obtenues à partir de description d’images en prenant en compte le niveau d’apprentissage et différentes positions prosodiques. Les résultats montrent une bonne gestion de la fréquence fondamentale par les apprenants. En effet, ils produisent des montées prosodiques aux frontières de AP et IP et sont capables de produire des montées plus importantes aux frontières de IP. Cependant, la gestion du paramètre de durée est moins homogène. Les résultats montrent que la durée n’est pas un paramètre acoustique robuste utilisé pour produire la continuation. Ces résultats suggèrent que les deux paramètres acoustiques de durée et de F0 ne peuvent pas être mis au même niveau quant à l’analyse de la continuation.

pdf bib abs
La pause chez les personnes âgées – une étude exploratoire (Pauses in Older Speakers reading task - An Exploratory Study)
Betty Appavoo | Camille Fauth | Rudolph Sock | Béatrice Vaxelaire

La production de la parole chez la personne âgée a fait l’objet de nombreuses études qui portaient essentiellement mais pas exclusivement sur les aspects vocaux. Dans ce travail exploratoire, nous cherchons à évaluer les effets du vieillissement sur l’organisation de la lecture. La distribution des pauses et des groupes rythmiques, ainsi que leurs durées respectives ont été quantifiés, de même que la vitesse d’élocution et la vitesse d’articulation pour un groupe de 10 locuteurs âgés (60 à 80 ans) et un groupe de 10 locuteurs témoins (40 à 55 ans). Les résultats indiquent des différences significatives pour les durées des groupes rythmiques et des pauses et pour la vitesse d’élocution ; les locuteurs âgés ayant un débit plus lent que les locuteurs plus jeunes. Ces différences nous semblent intéressantes à poursuivre afin d’étudier plus précisément les différentes stratégies de réorganisation que peuvent mettre en place les locuteurs en fonction de leur âge.

pdf bib abs
Reconnaissance automatique de la parole : génération des prononciations non natives pour l’enrichissement du lexique (In this study we propose a method for lexicon adaptation in order to improve the automatic speech recognition (ASR) of non-native speakers)
Ismael Bada | Dominique Fohr | Irina Illina

Dans cet article nous proposons une méthode d’adaptation du lexique, destinée à améliorer les systèmes de la reconnaissance automatique de la parole (SRAP) des locuteurs non natifs. En effet, la reconnaissance automatique souffre d’une chute significative de ses performances quand elle est utilisée pour reconnaître la parole des locuteurs non natifs, car les phonèmes de la langue étrangère sont fréquemment mal prononcés par ces locuteurs. Pour prendre en compte ce problème de prononciations erronées, notre approche propose d’intégrer les prononciations non natives dans le lexique et par la suite d’utiliser ce lexique enrichi pour la reconnaissance. Pour réaliser notre approche nous avons besoin d’un petit corpus de parole non native et de sa transcription. Pour générer les prononciations non natives, nous proposons de tenir compte des correspondances graphèmes-phonèmes en vue de générer de manière automatique des règles de création de nouvelles prononciations. Ces nouvelles prononciations seront ajoutées au lexique. Nous présentons une évaluation de notre méthode sur un corpus de locuteurs non natifs français s’exprimant en anglais.

pdf bib abs
La phonotaxe du russe dans la typologie des langues : focus sur la palatalisation (This paper presents a phonotactic description of Russian based on an analysis of 15,000 phonologically transcribed and syllabified lemmas)
Ekaterina Biteeva Lecocq | Nathalie Vallée | Denis Faure-Vincent

Cet article présente un travail de description phonotactique du russe basé sur une analyse de 15 000 lemmes transcrits phonologiquement et syllabés. Un ensemble de données quantitatives relatives aux structures syllabiques a été examiné dans une perspective typologique. À partir d’une analyse distributionnelle des segments consonantiques ±PAL, des probabilités phonotactiques ont été estimées. Les résultats montrent que le russe suit globalement les tendances générales observées dans les langues de la base de données G-ULSID (Vallée, Rousset & Rossato, 2009) et mettent en évidence des asymétries de distribution des consonnes ±PAL à l’intérieur de la syllabe. Le fait que le système consonantique du russe présente une distinctivité ±PAL étendue à tous les lieux d’articulation, semble contraindre les coccurrences entre consonne et voyelle d’une même syllabe prédites par la théorie Frame/Content (MacNeilage, 1998) et trouvées dans de nombreuses langues.

pdf bib abs
Débit et réduction vocalique : effets de la tâche de parole et du locuteur (Rate and vowel reduction : effects of speech task and speaker)
Angélina Bourbon | Daria D’Alessandro | Cécile Fougeron

Dans cette étude nous examinons, sur un groupe varié de 29 locuteurs, les différences de réponses entre locuteur à une demande explicite de modification du débit tout d’abord dans une tâche de répétition rapide, puis entre une tâche de lecture et une tâche de répétition confortable. Ces réponses sont évaluées en termes de débit articulatoire et de réduction vocalique (temporelle et/ou spectrale). Les résultats montrent différents profils de réponses dans la tâche de répétition rapide par rapport à la même tâche sans contrainte temporelle, et on voit que le débit peut être augmenté avec ou sans réduction spectrale. On montre également une forte variation dans les réponses des locuteurs à une tâche de répétition confortable par rapport à de la lecture, avec pour certains locuteurs des différences nettes d’organisation spectro-temporelle. Dans cette tâche assez artificielle de répétition, sans instruction précise, davantage de différences individuelles émergent.

pdf bib abs
Voice Onset Time en code-switching anglais-français : une étude des occlusives sourdes en début de mot (Voice Onset Time in English-French code-switching : a study of word-initial voiceless stop consonants)
Marguerite Cameron

Le “code-switching” ou l’alternance codique - l’alternance entre plusieurs langues dans une seule interaction - offre une occasion unique d’observer comment les locuteurs multilingues utilisent leurs langues. Récemment, des études phonétiques sur les qualités acoustiques des énoncés codeswitchés, telles que le VOT, ont examiné comment les locuteurs équilibrent plusieurs systèmes phonologiques. La présente étude examine les effets du code-switching sur le VOT des occlusives sourdes /p t k/ produites par les locuteurs bilingues anglais-français (L1 anglais et L1 français), d’une acquisition tardive de leur L2. Les données ont été recueillies à partir des enregistrements de discours conversationnels, entre des binômes de participants. Pour les participants francophones (L1 français), le VOT du /p/ des mots anglais était plus long lors d’un code-switch (du français, vers l’anglais) que dans un énoncé tiré d’une conversation monolingue anglais, et le VOT du /t/ était plus court. Aucun effet de contexte (le fait qu’une occlusive mesurée vienne d’un code-switch vers l’anglais ou lors d’une conversation monolingue anglais) n’a été observé pour les anglophones (L1 anglais).

pdf bib abs
Où en sommes-nous dans la reconnaissance des entités nommées structurées à partir de la parole ? (Where are we in Named Entity Recognition from speech ?)
Antoine Caubrière | Sophie Rosset | Yannick Estève | Antoine Laurent | Emmanuel Morin

La reconnaissance des entités nommées (REN) à partir de la parole est traditionnellement effectuée par l’intermédiaire d’une chaîne de composants, exploitant un système de reconnaissance de la parole (RAP), puis un système de REN appliqué sur les transcriptions automatiques. Les dernières données disponibles pour la REN structurées à partir de la parole en français proviennent de la campagne d’évaluation ETAPE en 2012. Depuis la publication des résultats, des améliorations majeures ont été réalisées pour les systèmes de REN et de RAP. Notamment avec le développement des systèmes neuronaux. De plus, certains travaux montrent l’intérêt des approches de bout en bout pour la tâche de REN dans la parole. Nous proposons une étude des améliorations en RAP et REN dans le cadre d’une chaîne de composants, ainsi qu’une nouvelle approche en trois étapes. Nous explorons aussi les capacités d’une approche bout en bout pour la REN structurées. Enfin, nous comparons ces deux types d’approches à l’état de l’art de la campagne ETAPE. Nos résultats montrent l’intérêt de l’approche bout en bout, qui reste toutefois en deçà d’une chaîne de composants entièrement mise à jour.

pdf bib abs
PTSVOX : une base de données pour la comparaison de voix dans le cadre judiciaire (PTSVOX : a Speech Database for Forensic Voice Comparison )
Anaïs Chanclu | Laurianne Georgeton | Corinne Fredouille | Jean-Francois Bonastre

Cet article présente la base de données PTSVOX, créée par le Service Central de la Police Technique et Scientifique (SCPTS) spécifiquement pour la comparaison de voix dans le cadre judiciaire. PTSVOX contient 369 locuteurs et locutrices qui ont été enregistrés au microphone et au téléphone. PTSVOX a été conçue pour mesurer l’influence de différents facteurs de variabilité fréquemment rencontrés dans les cas pratiques en identification judiciaire, comme le type de parole, le temps écoulé et le matériel d’enregistrement. Pour cela, 24 des locuteurs de PTSVOX (12 hommes et 12 femmes) ont été enregistrés une fois par mois pendant 3 mois, en parole spontanée et en parole lue. Dans cet article, nous présentons dans un premier temps la base PTSVOX, puis nous décrivons des protocoles standards ainsi que les systèmes de référence associés à PTSVOX, avec une évaluation de leur performance.

pdf bib abs
Dis-moi comment tu varies ton débit, je te dirai qui tu es (Tell me how you vary your speech flow, I’ll tell you who you are Studying inter-speaker variability makes it possible to identify discriminating or even identifying phonetic characteristics)
Estelle Chardenon | Cécile Fougeron | Nicolas Audibert | Cédric Gendrot

Si l’étude de la variabilité entre locuteurs permet d’identifier des caractéristiques phonétiques potentiellement discriminantes, voire spécifiques, il est essentiel de comprendre, si et comment, ces caractéristiques varient chez un même locuteur. Ici, nous examinons la variabilité de caractéristiques liées à la gestion temporelle de la parole sur un nombre limité de locuteurs, enregistrés sur plusieurs répétitions dans une même session, et sur 6 à 7 sessions espacées d’une année. Sur cette vingtaine d’enregistrements par locuteur, nous observons comment le débit articulatoire, les modulations de ce débit, et la durée des pauses varient en fonction de la répétition et de la session et en interaction avec le locuteur. Les résultats montrent que c’est dans la variation de gestion temporelle de la parole que les locuteurs se distinguent les uns des autres, en termes de régularité ou non entre enregistrements et au sein d’un même enregistrement.

pdf bib abs
Caractérisation du locuteur par CNN à l’aide des contours d’intensité et d’intonation : comparaison avec le spectrogramme (CNN speaker characterisation through prosody : spectrogram comparison )
Gabriele Chignoli | Cédric Gendrot | Emmanuel Ferragne

Dans ce travail nous avons recours aux variations de f0 et d’intensité de 44 locuteurs francophones à partir de séquences de 4 secondes de parole spontanée pour comprendre comment ces paramètres prosodiques peuvent être utilisés pour caractériser des locuteurs. Une classification automatique est effectuée avec un réseau de neurones convolutifs, fournissant comme réponse des scores de probabilité pour chacun des 44 locuteurs modélisés. Une représentation par spectrogrammes a été utilisée comme référence pour le même système de classification. Nous avons pu mettre en avant la pertinence de l’intensité, et lorsque les deux paramètres prosodiques sont combinés pour représenter les locuteurs nous observons un score qui atteint en moyenne 59 % de bonnes classifications.

pdf bib abs
C’est “mm-hm, oui” ou “mm-hm, non” ? Propositions pour une grammaire des composantes acoustiques des interactions nasalisées (A modest proposal for the pragmatic of nasal grunts in the CID corpus)
Aurélie Chlébowski | Nicolas Ballier

Cet article se propose d’envisager l’existence d’une grammaire spécifique aux interactions nasalisées (Chlébowski et Ballier, 2015). Notre proposition se fonde sur une annotation des composantes acoustiques de cette sous-catégorie de sons non-lexicaux (Ward, 2006) dans le corpus CID (Bertrand et al., 2008). Nous voudrions présenter les contraintes combinatoires et régularités qui semblent s’appliquer à ces composantes acoustiques, ainsi que discuter leur structuration. Les résultats préliminaires de l’analyse des composantes acoustiques semblent suggérer des plages de valeurs par défaut pour les réalisations des IN (notamment pour la durée). La violation de ces usages peut donner lieu à une analyse de type gricienne d’implicature.

pdf bib abs
Variation prosodique des styles de parole et interface syntaxe-prosodie: Étude sur corpus à grande échelle (Speaking Style Prosodic Variation and the Prosody-Syntax Interface : A Large-Scale Corpus)
George Christodoulides

La mutualisation et diffusion des grands corpus de parole permet de réexaminer des analyses précédentes effectuées sur des corpus plus petits, afin de vérifier si les conclusions de ces analyses se généralisent aux nouvelles données. Dans cette étude, nous présentons les résultats préliminaires d’une analyse de la variation des styles de parole en français, basée sur un corpus à grande échelle (300 heures, 2500 locuteurs). Le corpus a été réaligné au niveau des phones, syllabes et mots, et une annotation morphosyntaxique et syntaxique a été ajouté en améliorant les annotations existantes. Plusieurs caractéristiques acoustiques et prosodiques sont automatiquement extraites et une analyse statistique (analyse en composantes principales, ACP) est effectuée afin d’explorer les caractéristiques des styles de parole et leur variance. Nous explorons aussi la relation entre frontières prosodique et syntaxiques comme méthode pour discriminer les styles de parole. 1

pdf bib abs
Proximité rythmique entre apprenants et natifs du français Évaluation d’une métrique basée sur le CEFC (Rhythmic Proximity Between Natives And Learners Of French – Evaluation of a metric based on the CEFC corpus )
Sylvain Coulange | Solange Rossato

Cette étude a pour objectif de proposer une quantification de l’accent étranger se basant sur des mesures rythmiques. Nous avons utilisé le Corpus pour l’Étude du Français Contemporain, qui propose plus de 300 heures de parole aux profils de locuteurs et aux situations variés. Nous nous sommes concentrés sur 16 paramètres temporels estimés à partir des durées de voisement et de syllabes. Un mélange gaussien a été appris sur les données de 1 340 natifs du français, puis testé sur des extraits de 146 natifs tirés au hasard (NS), sur ceux des 37 non-natifs présents dans le corpus (NNS), ainsi que sur des enregistrements de 29 apprenants japonais de niveau A2 d’un autre corpus. La probabilité que les NNS aient une log-vraisemblance inférieure aux NS ne dépasse pas la tendance (p = 0, 067), mais celle pour les apprenants japonais est beaucoup plus significative (p < 0, 0001). L’étude de la répartition des paramètres entre les différents groupes met en avant l’importance du débit de parole et des durées de voisement. 1

pdf bib abs
Étude comparative des paramètres d’entrée pour la synthèse expressive audiovisuelle de la parole par DNNs (Comparative study of input parameters for DNN-based expressive audiovisual speech synthesis )
Sara Dahmani | Vincent Colotte | Slim Ouni

Dans le passé, les descripteurs contextuels pour la synthèse de la parole acoustique ont été étudiés pour l’entraînement des systèmes basés sur des HMMs. Dans ce travail, nous étudions l’impact de ces facteurs pour la synthèse de la parole audiovisuelle par DNNs. Nous analysons cet impact pour les trois aspects de la parole : la modalité acoustique, la modalité visuelle et les durées des phonèmes. Nous étudions également l’apport d’un entraînement joint et séparé des deux modalités acoustique et visuelle sur la qualité de la parole synthétique générée. Finalement, nous procédons à une validation croisée entre les résultats de la synthèse des différentes émotions. Cette validation croisée, nous a permis de vérifier la capacité des DNNs à apprendre des caractéristiques spécifiques à chaque émotion.

pdf bib abs
Rythme et contrôle articulatoire : étude préliminaire du Human Beatbox (Rhythm and articulatory Control : Preliminary study of Human Beatboxing)
Alexis Dehais Underdown | Paul Vignes | Lise Crevier-Buchman | Didier Demolin

Dans cette étude nous nous intéressons à l’analyse spectrale d’imitation de grosses caisses, de charleston et de caisse claire dans un paradigme d’augmentation de la vitesse de production. La vitesse de production a été contrôlée en utilisant un métronome à vibration paramétré à 90, 120 puis 150 battements par minute. Le Centre de Gravité spectral et le coefficient d’asymétrie ont été mesurés pour inférer la stabilité et la variabilité articulatoire des sons produits dans les patterns beatboxés. Les grosse caisses sont les sons les plus contrôlés suivi par les caisses claires puis les charlestons.

pdf bib abs
Unités prosodiques et grammaire intonative du français : vers une nouvelle approche (Prosodic Units and Intonational Grammar in French: towards a new Approach)
Elisabeth Delais-Roussarie | Brechtje Post | Hiyon Yoo

Dans les travaux sur la prosodie du français sont généralement proposés deux ou trois niveaux de structuration prosodique: le syntagme accentuel, le syntagme intermédiaire et le syntagme intonatif. Alors que les auteurs sont souvent d’accord sur les modalités de construction du syntagme accentuel, il n’en est pas de même pour les deux autres niveaux. Dans cet article, nous proposons de redéfinir le syntagme intermédiaire. Cette proposition diffère des autres travaux en deux points. Premièrement, l’extension et le statut du syntagme intermédiaire est clarifié pour en faire une unité métrique. Deuxièmement, une distinction est faite entre cette unité et deux types de syntagme intonatif. Cette proposition se base sur l’inventaire des contours observés à la frontière droite de ces unités et sur l’étude des relations qu’elles entretiennent avec les structures morpho-syntaxique et sémantique. Elle vise à rendre compte du phrasé et du choix des contours intonatifs à un niveau phonologique sous-jacent.

pdf bib abs
Quel type de systèmes utiliser pour la transcription automatique du français ? Les HMM font de la résistance (What system for the automatic transcription of French in audiovisual broadcasts ?)
Paul Deléglise | Carole Lailler

Forts d’une utilisation couronnée de succès en traduction automatique, les systèmes end-to-end dont la sortie réside en une suite de caractères, ont vu leur utilisation étendue à la transcription automatique de la parole. De nombreuses comparaisons ont alors été effectuées sur des corpus anglais libres de droits, de parole lue. Nous proposons ici de réaliser une comparaison entre deux systèmes état de l’art, non pas sur de la parole lue mais bel et bien sur un corpus d’émissions audiovisuelles françaises présentant différents degrés de spontanéité. Le premier est un end-to-end et le second est un système hybride (HMM/DNN). L’obtention de résultats satisfaisants pour le end-to-end nécessitant un lexique et modèle de langage dédiés, il est intéressant de constater qu’une meilleure intégration dans les systèmes hybrides (HMM/DNN) est source de performances supérieures, notamment en Français où le contexte est primordial pour capturer un énoncé.

pdf bib abs
Adaptations sur le F1 et le débit en réponse à diverses perturbations (F1 and speech rate adaptations in response to various perturbations)
Ivana Didirková | Leonardo Lancia | Cécile Fougeron

Nous comparons les effets de deux conditions induisant des stratégies d’adaptation différentes (retour auditif masqué et bite-block) avec les effets des modifications intentionnelles du débit de parole. Nous examinons ces effets en termes de F1 et en termes de débit articulatoire. Nous comparons ensuite les effets de ces mêmes perturbations sur les mêmes locuteurs, afin de définir si les stratégies inter- et intra-individuelles varient en fonction de la boucle perturbée (auditive ou somatosensorielle). Cinq locutrices ont été enregistrées sans perturbation, avec un retour auditif masqué, avec un bite-block et avec des changements de tempo instruits (lent et rapide). Les résultats montrent une augmentation du débit en parallèle d’une augmentation du F1 des voyelles ouvertes, ce qui permet de supposer que les modifications spectrales et les modifications de débit ne seraient pas corrélées. La même augmentation de F1 est observée lors d’une modification intentionnelle du débit de parole.

pdf bib abs
Perception des consonnes dans la dysarthrie parkinsonienne : effets du contexte phonémique, prosodique et lexical (Perception of consonants in parkinsonian dysarthria: effects of the phonetic, prosodic and lexical context)
Danielle Duez | Alain Ghio | François Viallet

Les patients atteints de la maladie de Parkinson (MDP) présentent généralement des déficits dans la production de la parole. Nous avons examiné l’identification perceptive des consonnes intervocaliques produites par 10 locuteurs avec MDP et 10 locuteurs sains en lecture de texte. Pour neutraliser le contenu sémantique, toutes les consonnes intervocaliques ont été isolées avec la moitié des voyelles précédente et suivante. 20 adultes natifs francophones ont été chargés de transcrire les séquences du corpus. La consonne rapportée a été examinée par rapport à la consonne prototypique; le score de distorsion est le nombre de traits phonétiques différents par rapport à la consonne prototypique. Les résultats ont été examinés en fonction des facteurs linguistiques suivants: nature de la consonne, contexte vocalique oral / nasal, classe de mot (fonction ou contenu) et position dans les syntagmes. L’imprécision de la consonne a été confirmée dans la parole des locuteurs MDP. MOTS-CLÉS : perception, dysarthrie parkinsonienne, phonétique clinique, traits phonétiques

pdf bib abs
Statistiques des sons naturels et hypothèse du codage efficace pour la perception de la musique et de la parole: Mise en place d’une méthodologie d’évaluation (Natural sound statistics and the efficient coding hypothesis for music and speech perception : setting-up an evaluation methodology)
Agnieszka Duniec | Olivier Crouzet | Elisabeth Delais-Roussarie

L’hypothèse du codage efficace prédit que les systèmes perceptifs sont optimalement adaptés aux propriétés statistiques des signaux naturels. Ce caractère optimal a été récemment évalué sur la base d’analyses statistiques réalisées sur des décompositions spectrales de signaux de parole représentés comme des modulations d’énergie. Ces travaux pourraient trouver des applications directes dans l’amélioration du codage des signaux acoustiques par des implants cochléaires. Cependant, les recherches sur la perception de la musique par des personnes sourdes portant un implant cochléaire mettent en avant des limites qui semblent discordantes avec les performances observées concernant certaines propriétés fondamentales de la parole. Nous comparons les résultats d’analyses statistiques de signaux musicaux avec ceux qui ont été réalisés sur de la parole dans le but d’évaluer les impacts respectifs de ces deux gammes de signaux sonores pour évaluer leurs contributions à cette proposition théorique. Des résultats préliminaires et les perspectives futures sont discutés.

pdf bib abs
Adaptation de domaine non supervisée pour la reconnaissance de la langue par régularisation d’un réseau de neurones (Unsupervised domain adaptation for language identification by regularization of a neural network)
Raphaël Duroselle | Denis Jouvet | Irina Illina

Les systèmes automatiques d’identification de la langue subissent une dégradation importante de leurs performances quand les caractéristiques acoustiques des signaux de test diffèrent fortement des caractéristiques des données d’entraînement. Dans cet article, nous étudions l’adaptation de domaine non supervisée d’un système entraîné sur des conversations téléphoniques à des transmissions radio. Nous présentons une méthode de régularisation d’un réseau de neurones consistant à ajouter à la fonction de coût un terme mesurant la divergence entre les deux domaines. Des expériences sur le corpus OpenSAD15 nous permettent de sélectionner la Maximum Mean Discrepancy pour réaliser cette mesure. Cette approche est ensuite appliquée à un système moderne d’identification de la langue reposant sur des x-vectors. Sur le corpus RATS, pour sept des huit canaux radio étudiés, l’approche permet, sans utiliser de données annotées du domaine cible, de surpasser la performance d’un système entraîné de façon supervisée avec des données annotées de ce domaine.

pdf bib abs
Modifications des flux aérodynamiques de la parole après chirurgie naso-sinusienne (Speech aerodynamic airflow modifications after sinonasal surgery)
Amélie Elmerich | Angélique Amelot | Lise Crevier-Buchman

Cette étude a pour but de déterminer dans quelle mesure la polypose naso-sinusienne impacte l’aérodynamique des flux oral et nasal. Ainsi, nous avons enregistré des patients atteints de cette pathologie avant et après chirurgie. Plusieurs éléments ont pu être mis en lumière : une modification du passage de l’air dans la cavité nasale et une meilleure coordination des flux d’air oral et nasal après chirurgie.

pdf bib abs
Reconnaissance de parole beatboxée à l’aide d’un système HMM-GMM inspiré de la reconnaissance automatique de la parole (BEATBOX SOUNDS RECOGNITION USING A SPEECH-DEDICATED HMM-GMM BASED SYSTEM 1 Human beatboxing is a vocal art making use of speech organs to produce percussive sounds and imitate musical instruments)
Solène Evain | Adrien Contesse | Antoine Pinchaud | Didier Schwab | Benjamin Lecouteux | Nathalie Henrich Bernardoni

Le human-beatbox est un art vocal utilisant les organes de la parole pour produire des sons percussifs et imiter les instruments de musique. La classification des sons du beatbox représente actuellement un défi. Nous proposons un système de reconnaissance des sons de beatbox s’inspirant de la reconnaissance automatique de la parole. Nous nous appuyons sur la boîte à outils Kaldi, qui est très utilisée dans le cadre de la reconnaissance automatique de la parole (RAP). Notre corpus est composé de sons isolés produits par deux beatboxers et se compose de 80 sons différents. Nous nous sommes concentrés sur le décodage avec des modèles acoustiques monophones, à base de HMM-GMM. La transcription utilisée s’appuie sur un système d’écriture spécifique aux beatboxers, appelé Vocal Grammatics (VG). Ce système d’écriture s’appuie sur les concepts de la phonétique articulatoire.

L’implant cochléaire, malgré une amélioration considérable de la perception auditive, ne fournit qu’une information acoustique partielle, pouvant donner lieu à des difficultés de perception de certains contrastes phonétiques. L’étude présentée vise à déterminer les compétences de perception et de production des voyelles nasales et orales d’enfants porteurs d’implants cochléaires en comparaison aux compétences d’enfants normo-entendants. Malgré des résultats très satisfaisants dans les deux groupes, on observe des patterns d’erreurs spécifiques au groupe d’enfants implantés dans les tâches perceptives, ainsi que certaines particularités dans la réalisation phonétique des voyelles nasales, portant notamment sur les valeurs de bande passante.

pdf bib abs
Une nouvelle mesure de la réverbération pour prédire les performances a priori de la transcription de la parole (A new reverberation measure to predict a priori ASR performance)
Sébastien Ferreira | Jérôme Farinas | Julien Pinquier | Julie Mauclair | Stéphane Rabant

Dans cette étude, nous explorons la prédiction a priori de la qualité de la transcription automatique de la parole dans le cas de la parole réverbérée enregistrée avec un seul microphone. Cette prédiction est faite avant le décodage pour informer les utilisateurs de la qualité de la transcription attendue. Dans cette étude, nous nous concentrons uniquement sur les pertes de performance liées à la réverbération. Une nouvelle mesure de réverbération appelée « Excitation Behavior » est introduite. Cette mesure exploite le résidus de la prédiction linéaire sur les fenêtres voisées du signal de parole. L’expérience a été menée sur le corpus Wall Street Journal, réverbéré par des réponses impulsionnelles provenant du REVERB Challenge. Par rapport aux autres mesures de réverbération testées, notre mesure obtient une amélioration relative de 20% de la prédiction du taux d’erreur (aussi bien au niveau des phonèmes que des mots).

pdf bib abs
Analyse de l’effet de la réverbération sur la reconnaissance automatique de la parole (Analyzing how reverberation affects Automatic Speech Recognition)
Sébastien Ferreira | Jérôme Farinas | Julien Pinquier | Julie Mauclair | Stéphane Rabant

La Reconnaissance Automatique de la Parole (RAP) est moins performante lorsque le signal de parole est de mauvaise qualité. Dans cette étude, nous analysons les erreurs commises par les systèmes de RAP lorsque la parole transcrite est réverbérée afin de mieux comprendre les raisons de ces erreurs. Notre analyse permet de mettre en valeur les erreurs dues notamment à un mauvais alignement phonétique. Nous avons pu constater que les phonèmes de courte durée sont majoritairement supprimés lors du décodage phonétique. De plus, les phonèmes détectés, qu’ils soient corrects ou pas, ont tendance à avoir la même durée, ce qui est anormal pour certaines classes phonétiques comme les voyelles courtes ou les plosives. Nous avons aussi analysé les principales confusions entre les différentes classes phonétiques. Finalement, nous avons pu montrer que les erreurs lors de l’alignement phonétique des systèmes de transcription automatique entraînent beaucoup d’erreurs de détection.

pdf bib abs
Représentation du genre dans des données open source de parole (Gender representation in open source speech resources 1 With the rise of artificial intelligence (AI) and the growing use of deep-learning architectures, the question of ethics and transparency in AI systems has become a central concern within the research community)
Mahault Garnerin | Solange Rossato | Laurent Besacier

Avec l’essor de l’intelligence artificielle (IA) et l’utilisation croissante des architectures d’apprentissage profond, la question de l’éthique et de la transparence des systèmes d’IA est devenue une préoccupation centrale au sein de la communauté de recherche. Dans cet article, nous proposons une étude sur la représentation du genre dans les ressources de parole disponibles sur la plateforme Open Speech and Language Resource. Un tout premier résultat est la difficulté d’accès aux informations sur le genre des locuteurs. Ensuite, nous montrons que l’équilibre entre les catégories de genre dépend de diverses caractéristiques des corpus (discours élicité ou non, tâche adressée). En nous appuyant sur des travaux antérieurs, nous reprenons quelques principes concernant les métadonnées dans l’optique d’assurer une meilleure transparence des systèmes de parole construits à l’aide de ces corpus.

pdf bib abs
Reconnaissance de phones fondée sur du Transfer Learning pour des enfants apprenants lecteurs en environnement de classe (Transfer Learning based phone recognition on children learning to read, with speech recorded in a classroom environment)
Lucile Gelin | Morgane Daniel | Thomas Pellegrini | Julien Pinquier

A conditions égales, les performances actuelles de la reconnaissance vocale pour enfants sont inférieures à celles des systèmes pour adultes. La parole des jeunes enfants est particulièrement difficile à reconnaître, et les données disponibles sont rares. En outre, pour notre application d’assistant de lecture pour les enfants de 5-7 ans, les modèles doivent s’adapter à une lecture lente, des disfluences et du bruit de brouhaha typique d’une classe. Nous comparons ici plusieurs modèles acoustiques pour la reconnaissance de phones sur de la parole lue d’enfant avec des données bruitées et en quantité limitée. Nous montrons que faire du Transfer Learning avec des modèles entraînés sur la parole d’adulte et trois heures de parole d’enfant améliore le taux d’erreur au niveau du phone (PER) de 7,6% relatifs, par rapport à un modèle enfant. La normalisation de la longueur du conduit vocal sur la parole d’adulte réduit ce taux d’erreur de 5,1% relatifs supplémentaires, atteignant un PER de 37,1%.

pdf bib abs
Informations segmentales pour la caractérisation phonétique du locuteur : variabilité inter- et intra-locuteurs (An automatic classification task involving 44 speakers was performed using convolutional neural networks (CNN) on broadband spectrograms extracted from 2-second sequences of a spontaneous speech corpus (NCCFr))
Cedric Gendrot | Emmanuel Ferragne | Thomas Pellegrini

Nous avons effectué une classification automatique de 44 locuteurs à partir de réseaux de neurones convolutifs (CNN) sur la base de spectrogrammes à bandes larges calculés sur des séquences de 2 secondes extraites d’un corpus de parole spontanée (NCCFr). Après obtention d’un taux de classification moyen de 93,7 %, les différentes classes phonémiques composant chaque séquence ont été masquées afin de tester leur impact sur le modèle. Les résultats montrent que les voyelles orales influent avant toute autre classe sur le taux de classification, suivies ensuite par les occlusives orales. Ces résultats sont expliqués principalement par la représentation temporelle prédominante des voyelles orales. Une variabilité inter-locuteurs se manifeste par l’existence de locuteurs attracteurs qui attirent un grand nombre de faux positifs et qui ne sont pas sensibles au masquage effectué. Nous mettons en avant dans la discussion des réalisations acoustiques qui pourraient expliquer les spécificités de ces locuteurs.

pdf bib abs
Evaluation de l’intelligibilité de patients avec traitement du cancer des cavités orales et pharyngales (Intelligibility Assessment of patients in the Context of Head and Neck Cancers)
Alain Ghio | Muriel Lalain | Marie Rebourg | Corinne Fredouille | Virginie Woisard

La perte d’intelligibilité représente une plainte importante des patients atteints de troubles de la parole. Plusieurs batteries de test d’intelligibilité existent mais leurs limitations résident dans la capacité des auditeurs à restaurer les séquences distordues. Nous proposons un nouveau test fondé sur l’utilisation de pseudo-mots en grande quantité afin de complètement neutraliser les effets perceptifs indésirables. Nous avons appliqué ce test à une population de 39 sujets sains et 78 patients post traitement de cancers de la cavité buccale et de l’oropharynx. Chaque locuteur a produit 52 pseudo-mots tirés aléatoirement. 40 auditeurs ont retranscrit ces productions. Les transcriptions orthographiques ont été phonétisées et comparées aux formes phonétiques attendues. Un algorithme fournit un score de déviation phonologique perçue (PPD) fondée sur le nombre de traits différents entre la forme attendue et celle transcrite. Les résultats montrent qu’il existe un seuil PPD de 0.6 traits/phonème au-dessus duquel, la parole produite est dysfonctionnelle. De plus, le score de PPD est bien corrélé au jugement subjectif de la sévérité obtenue auprès d’experts. Ce test semble donc efficace pour mesurer la performance articulatoire des locuteurs.

pdf bib abs
Apprentissage automatique de représentation de voix à l’aide d’une distillation de la connaissance pour le casting vocal (Learning voice representation using knowledge distillation for automatic voice casting )
Adrien Gresse | Mathias Quillot | Richard Dufour | Jean-François Bonastre

La recherche d’acteurs vocaux pour les productions audiovisuelles est réalisée par des directeurs artistiques (DA). Les DA sont constamment à la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions à grande échelle. Les outils automatiques capables de suggérer des voix présentent alors un grand intérêt pour l’industrie audiovisuelle. Dans les travaux précédents, nous avons montré l’existence d’informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche à base de réseaux de neurones pour construire une représentation adaptée aux personnages/rôles visés, appelée p-vecteur. Nous proposons ensuite de tirer parti de données externes pour la représentation de voix, proches de celles d’origine, au moyen de méthodes de distillation de la connaissance. Les expériences menées sur des extraits de voix de jeux vidéo montrent une amélioration significative de l’approche p-vecteur, avec distillation de la connaissance, par rapport à une représentation x-vecteur, état-de-l’art en reconnaissance du locuteur.

pdf bib abs
Lénition et fortition des occlusives en coda finale dans deux langues romanes : le français et le roumain (Lenition and fortition of word-final stops in two Romance languages: French and Romanian)
Mathilde Hutin | Adèle Jatteau | Ioana Vasilescu | Lori Lamel | Martine Adda-Decker

L’exploration automatisée de grands corpus permet d’analyser plus finement la relation entre motifs de variation phonétique synchronique et changements diachroniques : les erreurs dans les transcriptions automatiques sont riches d’enseignements sur la variation contextuelle en parole continue et sur les possibles mutations systémiques sur le point d’apparaître. Dès lors, il est intéressant de se pencher sur des phénomènes phonologiques largement attestés dans les langues en diachronie comme en synchronie pour établir leur émergence ou non dans des langues qui n’y sont pas encore sujettes. La présente étude propose donc d’utiliser l’alignement forcé avec variantes de prononciation pour observer les alternances de voisement en coda finale de mot dans deux langues romanes : le français et le roumain. Il sera mis en évidence, notamment, que voisement et dévoisement non-canoniques des codas françaises comme roumaines ne sont pas le fruit du hasard mais bien des instances de dévoisement final et d’assimilation régressive de trait laryngal, qu’il s’agisse de voisement ou de non-voisement.

pdf bib abs
Sur l’utilisation de la reconnaissance automatique de la parole pour l’aide au diagnostic différentiel entre la maladie de Parkinson et l’AMS (On using automatic speech recognition for the differential diagnosis of Parkinson’s Disease and MSA This article presents a study regarding the contribution of automatic speech processing in the differential diagnosis between Parkinson’s disease and MSA (Multi-System Atrophies))
Imed Laaridh | Julie Mauclair

Cet article présente une étude concernant l’apport du traitement automatique de la parole dans le cadre du diagnostic différentiel entre la maladie de Parkinson et l’AMS (Atrophie Multi-Systématisée). Nous proposons des outils de reconnaissance automatique de la parole pour évaluer le potentiel d’indicateurs de la parole dysarthrique caractérisant ces deux pathologies. Dans ce cadre, un corpus de parole pathologique (projet ANR Voice4PD-MSA) a été enregistré au sein des Centres Hospitaliers Universitaires (CHU) de Toulouse et Bordeaux. Les locuteurs sont des patients atteints de stades précoces de la maladie de Parkinson et d’AMS ainsi que des locuteurs témoins. Des mesures automatiques caractérisant la qualité de la reconnaissance automatique de la parole ainsi que la prosodie des patients ont montré un intérêt pour la caractérisation des pathologies étudiées et peuvent être considérées comme un outil potentiel pour l’aide à leur diagnostic différentiel.

pdf bib abs
Variation stylistique en français québécois : l’effet de l’identité de l’interlocuteur (Stylistic variation in Quebec French: the effect of the interlocutor’s identity)
Mélanie Lancien

Les études portant sur l’effet de la situation de communication sur la variation vocalique, notamment celles de Bradlow (2003) ou Scarborough (2007, 2013) ont démontré une adaptation du degré d’hyper-hypo articulation à l’identité de l’interlocuteur, avec par exemple une plus forte hypoarticulation (Lindblom, 1990) lorsque l’on s’adresse à un ami que lorsque l’on s’adresse à étranger. Dans cette étude, nous adaptons le protocole Diapix (Baker et Hazan, 2011) de façon à explorer la variation vocalique dans la parole dirigée à un.e conjoint.e, un expérimentateur de la même communauté linguistique, une expérimentatrice d’une autre communauté, ou soi-même. L’analyse préliminaire des productions de deux couples montre d’ores et déjà une influence de l’identité de l’interlocuteur, avec des voyelles plus courtes et plus proches du centroïde du système lors des tâches en couple que lors des tâches avec les enquêteurs ou avec soi-même.

pdf bib abs
De la possibilité d’un relâchement des voyelles hautes dans les troncations finissant par /v, z, ʒ, ʁ/ en français québécois (On the possibility of high vowels’ laxing in truncations ended by /v, z, ʒ, ʁ/ in Quebec French)
Mélanie Lancien

Le français québécois possède trois voyelles hautes tendues (/i, y, u/), et trois relâchées ([ɪ, ʏ, ʊ]), les relâchées étant décrites comme des allophones des tendues produits en syllabe fermée par une consonne non allongeante (Walker, 1984 ; Dumas, 1987 ; entre autres). Cependant Côté (2012) pose l’hypothèse que ce relâchement pourrait survenir dans des troncations finissant par une consonne allongeante (Troncation(_R)). Dans cette étude pilote, nous explorons cette hypothèse. A travers de courts textes (lus par deux locuteurs natifs) nous avons induit ces voyelles en Troncation(_R) ainsi que dans des positions formant des paire minimales (PaireMinimale(_R) / semi-minimales (finissant par une consonne non allongeante - PaireMinimale(_K)) avec les Troncation(_R). Les premières analyses temporelles (ANOVAs) montrent des /i, y, u/ plus courts en Troncation(_R) qu’en PaireMinimale(_R), et une analyse qualitative permet d’observer des variations spectrales entre Troncation(_R), PaireMinimale(_R) et PaireMinimale(_K), notamment à travers les moyennes de F1 et F2 (Hz).

pdf bib abs
Paramètres acoustiques et phonétiques dans la parole parkinsonienne avant et après traitement LSVT LOUD® (Acoustic and phonetic parameters in parkinsonian speech before and after LSVT LOUD® Purpose: Our research examines the effect of the Lee Silverman Voice Treatment (LSVT LOUD®) on the area and position of the vowel space, fundamental frequency (f0), voice quality parameters, speech rate, maximum phonation time (MPT) and patient-perceived vocal handicap in Frenchspeaking patients with Parkinson’s disease)
Maëlle Le Cerf | Emmanuel Ferragne

Objet : Notre recherche examine l’effet du Lee Silverman Voice Treatment (LSVT LOUD®) sur l’aire et la position de l’espace vocalique, la fréquence fondamentale (f0), les paramètres de qualité de voix, le débit de parole, le temps maximum phonatoire (TMP) et le ressenti de handicap vocal chez des patients francophones atteints de la maladie de Parkinson. Méthode : Un même protocole a été proposé en prétest et post-test à 12 patients parkinsoniens. Résultats : En post-test, nous observons une descente significative de l’espace vocalique, une différence de f0 entre la parole lue et la parole spontanée, une amélioration significative des paramètres de qualité de voix (jitter, shimmer, HNR) et du ressenti de handicap vocal. Le débit de parole des patients est maintenu, le TMP subit un effet de l’exercice.

pdf bib abs
Étude comparative de corrélats prosodiques de marqueurs discursifs français et anglais selon leur fonction pragmatique (Comparative study on prosodic correlates of discourse markers in French and English according to their pragmatic function)
Lou Lee | Denis Jouvet | Katarina Bartkova | Yvon Keromnes | Mathilde Dargnat

Ce papier présente une étude des caractéristiques prosodiques de marqueurs discursifs en fonction de leur sens pragmatique. L’étude est menée sur trois marqueurs discursifs français (alors, bon, donc) et trois marqueurs anglais (now, so, well) afin de comparer leurs caractéristiques prosodiques dans ces deux langues. Plusieurs paramètres prosodiques ont été calculés sur les marqueurs discursifs, et analysés selon les fonctions pragmatiques de ceux-ci. L’analyse a été effectuée sur plusieurs centaines d’occurrences de marqueurs discursifs extraits de corpus oraux français et anglais. Les résultats montrent que certaines fonctions pragmatiques des marqueurs discursifs amènent leurs propres caractéristiques prosodiques au niveau des pauses et des mouvements de la fréquence fondamentale. On observe également que les fonctions pragmatiques similaires partagent fréquemment des caractéristiques prosodiques similaires à travers les deux langues.

pdf bib abs
Phénomènes de proéminence dans les subordonnées en conversation spontanée (Prominence phenomena in subordinate constructions in conversational speech)
Manon Lelandais

À partir d’un corpus vidéo de conversation spontanée en anglais britannique, cette étude a pour but de déterminer si deux différents types syntaxiques de constructions subordonnées expriment la même absence de proéminence, dans le cadre d’une analyse multimodale. En syntaxe, les subordonnées sont décrites comme des structures dépendantes qui précisent l’information de premier plan dans le discours. Alors que de nombreux travaux étudient leurs caractéristiques verbales, peu d’études s’attachent à décrire l’articulation entre les différentes modalités communicatives lors de leur production, et à fournir une vision plus nuancée de leur apport informationnel. Nous prenons en compte un ensemble de variables appartenant à plusieurs modalités, considérées comme des facteurs de proéminence. Notre étude montre que les subordonnées ne fournissent pas les mêmes types de proéminence en fonction de leur type syntaxique, et que leur création s’appuie majoritairement sur des indices de nature intonative et gestuelle plutôt que syntaxique.

pdf bib abs
Une base de données de phrases en français pour l’étude du rôle conjoint des incertitudes sémantique et acoustique dans la perception de la parole (A dataset of french sentences to study the joint roles of semantic and acoustic uncertainty in speech perception)
Loriane Leprieur | Olivier Crouzet | Etienne Gaudrain

Les effets de contexte dans la perception de la parole reposent aussi bien sur des sources acoustiques que sémantiques. Le contexte acoustique fournit des informations essentielles pour l’adaptation au locuteur et aux variations dialectales. En parallèle, le contexte sémantique contribue à prédire un ensemble de mots éligibles pour une interprétation licite des énoncés. Afin d’étudier plus précisément les interactions entre ces effets de contexte, nous avons créé une base de données de phrases courtes conçues pour observer ces phénomènes dans des protocoles expérimentaux. Cette base de données est constituée de 28 triplets de phrases porteuses terminées par des cibles de paires minimales de mots CV ou CVC, autour de voyelles acoustiquement proches associées à 4 contrastes vocaliques. Afin d’évaluer la validité des 3 catégories de contexte sémantique considérées, des mesures de similarité sémantique et de fréquence lexicale ont été réalisées à partir de différents corpus de langue française.

pdf bib abs
Introduction d’informations sémantiques dans un système de reconnaissance de la parole (Despite spectacular advances in recent years, the Automatic Speech Recognition (ASR) systems still make mistakes, especially in noisy environments)
Stéphane Level | Irina Illina | Dominique Fohr

Malgré les avancés spectaculaires ces dernières années, les systèmes de Reconnaissance Automatique de Parole (RAP) commettent encore des erreurs, surtout dans des environnements bruités. Pour améliorer la RAP, nous proposons de se diriger vers une contextualisation d’un système RAP, car les informations sémantiques sont importantes pour la performance de la RAP. Les systèmes RAP actuels ne prennent en compte principalement que les informations lexicales et syntaxiques. Pour modéliser les informations sémantiques, nous proposons de détecter les mots de la phrase traitée qui pourraient avoir été mal reconnus et de proposer des mots correspondant mieux au contexte. Cette analyse sémantique permettra de réévaluer les N meilleures hypothèses de transcription (N-best). Nous utilisons les embeddings Word2Vec et BERT. Nous avons évalué notre méthodologie sur le corpus des conférences TED (TED-LIUM). Les résultats montrent une amélioration significative du taux d’erreur mots en utilisant la méthodologie proposée.

pdf bib abs
Production de la parole en réponse à de multiples perturbations du feedback auditif (Speech production in response to multiple perturbations of auditory feedback)
Jinyu Li | Leonardo Lancia

Des études antérieures ont montré que la production de la parole dépend des conditions du feedback auditif. Cette étude vise à investiguer les interactions entre les effets de trois facteurs différents sur la production de la parole : 1) le retard du feedback auditif (DAF), 2) le décalage de la f0 du feedback auditif et 3) la complexité des syllabes qui composent les énoncés. Nous avons manipulé le feedback auditif de 20 locutrices francophones pendant la répétition de trois phrases. Nous avons pu observer que plus de la moitié des participantes ont tendance à suivre la direction du décalage de la f0 du feedback auditif en recevant en continu cette perturbation. La position syllabique des voyelles est un facteur important affectant l’effet des perturbations du feedback auditif. Cependant les analyses décrites dans cette étude ne montrent pas un effet interactif du DAF et du décalage de la f0 sur la production de la parole.

pdf bib abs
Prédiction continue de la satisfaction et de la frustration dans des conversations de centre d’appels (AlloSat : A New Call Center French Corpus for Affect Analysis)
Manon Macary | Marie Tahon | Yannick Estève | Anthony Rousseau

Nous présentons un nouveau corpus, nommé AlloSat, composé de conversations en français extraites de centre d’appels, annotées de façon continue en frustration et satisfaction. Dans le contexte des centres d’appels, une conversation vise généralement à résoudre la demande de l’appelant. Ce corpus a été mis en place afin de développer de nouveaux systèmes capables de modéliser l’aspect continu de l’information sémantique et para-linguistique au niveau conversationnel. Nous nous concentrons sur le niveau para-linguistique, plus précisément sur l’expression des émotions. À notre connaissance, la plupart des corpus émotionnels contiennent des annotations en catégories discrètes ou dans des dimensions continues telles que l’activation ou la valence. Nous supposons que ces dimensions ne sont pas suffisamment liées à notre contexte. Pour résoudre ce problème, nous proposons un corpus permettant une connaissance en temps réel de l’axe frustration/satisfaction. AlloSat regroupe 303 conversations pour un total d’environ 37 heures d’audio, toutes enregistrées dans des environnements réels, collectées par Allo-Media (une société spécialisée dans l’analyse automatique d’appels). Les premières expériences de classification montrent que l’évolution de l’axe frustration/satisfaction peut être prédite automatiquement par conversation.

pdf bib abs
Production de parole chez l’enfant porteur d’implant cochléaire : apport de la Langue française Parlée Complétée (Speech production in children with cochlear implant(s): contribution of Cued French)
Laura Machart | Anne Vilain | Hélène Lœvenbruck | Geneviève Meloni | Clarisse Puissant

La déficience auditive entraîne un retard sur le développement de la parole chez l’enfant sourd. La Langue française Parlée Complétée (LfPC), par le biais de 5 positions autour du visage et 8 configurations de la main, permet de rendre visibles tous les sons de la langue, sans confusion labiale. L’utilisation de ce système facilite la perception de parole et permet à l’enfant d’élaborer des représentations phonologiques stables. Cette étude s’intéresse à l’apport de la LfPC sur la production de parole chez l’enfant porteur d’implant cochléaire. A partir d’une tâche de dénomination d’images, nous observons que l’exposition à la LfPC (en perception) améliore significativement la production de parole chez l’enfant porteur d’implant cochléaire.

pdf bib abs
Détection de la somnolence par estimation d’erreurs de lecture (Sleepiness detection through reading errors estimation )
Vincent P. Martin | Gabrielle Chapouthier | Mathilde Rieant | Jean-Luc Rouas | Pierre Philip

La détection automatique de la somnolence peut aider le suivi de patients souffrant de maladies neuro-psychiatriques chroniques. Des recherches précédentes ont déjà montré que cela est possible en utilisant des enregistrements vocaux. Dans cet article, nous proposons d’étudier les erreurs de lecture effectuées par des patients souffrant de Somnolence Diurne Excessive (SDE) sur le corpus TILE, enregistré à l’hôpital de Bordeaux. Avec des orthophonistes, nous avons défini et compté les erreurs de lecture des patients et les avons confrontées aux différentes mesures de somnolence du corpus. Nous montrons ici que relever ces erreurs peut être utile pour élaborer des marqueurs robustes de la somnolence objective mais aussi pour définir des critères d’exclusion des locuteurs n’ayant pas un niveau de lecture suffisant.

pdf bib abs
Détection de la somnolence objective dans la voix (Objective sleepiness detection through voice )
Vincent P. Martin | Jean-Luc Rouas | Pierre Philip

Le suivi des patients souffrant de maladies neuro-psychiatriques chroniques peut être amélioré grâce à la détection de la somnolence dans la voix. Cet article s’inspire des systèmes état-de-l’art en détection de la somnolence dans la voix pour le cas particulier de patients atteints de Somnolence Diurne Excessive (SDE). Pour cela, nous basons notre étude sur un nouveau corpus, le corpus TILE. Il diffère des autres corpora existants par le fait que les sujets enregistrés sont des patients souffrant de SDE et que leur niveau de somnolence est mesuré de manière subjective mais aussi objective. Le système proposé permet détecter la somnolence objective grâce à des paramètres vocaux simples et explicables à des non spécialistes.

pdf bib abs
Représentation phonologique des signes à deux mains en LSF : faut-il reconsidérer l’orientation absolue dans les modèles phonologiques des langues des signes ? (Phonological representation of 2-handed signs in LSF : reconsidering absolute orientation in the phonological models of sign language ?)
Justine Mertz

Cet article a pour objectif i) de mettre en évidence le besoin d’une orientation absolue en plus d’une orientation relative afin de décrire la phonologie segmentale des langues des signes, et ii) d’améliorer les modèles actuels et leur permettre de rendre compte de la phonologie de signes autrement problématiques. Dans cette étude sur la langue des signes française, nous nous concentrons sur une catégorie de signes en particulier : les signes à deux mains produits sur le corps du signeur (contact avec une partie du corps autre que la main non-dominante). Nous montrons que l’orientation relative ne permet pas une description adéquate de ces signes lorsque l’orientation des deux mains doit être spécifiée, puisqu’elle peut capturer soit l’orientation entre les deux mains, soit l’orientation vis à vis du corps, mais pas les deux. Afin de modéliser l’orientation de ces signes dans un cadre formel, nous proposons l’implémentation de plans secondaires. Tandis que cette implémentation requiert des ajustements minimes dans les modèles formels actuels, son impact quant à la théorie générale de la phonologie segmentale des signes est, elle, importante. Les plans secondaires imposent des restrictions géométriques et forcent l’orientation absolue ; le concept d’orientation comme simple classe phonémique relationnelle n’est donc plus suffisant (du moins pour ces signes).

pdf bib abs
La mobilisation du tractus vocal est-elle variable selon les langues en parole spontanée ? (Does vocal tract use depend on language characteristics in spontaneous speech?)
Christine Meunier | Morgane Peirolo | Brigitte Bigi

L’objectif de ce travail est de quantifier les positions articulatoires théoriques lors de la production de la parole spontanée dans trois langues. Chaque langue dispose d’un inventaire phonologique spécifique. Mais ces spécificités ne sont pas représentées telles quelles en parole spontanée dans laquelle les phonèmes n’ont pas tous la même fréquence d’apparition. Nous avons comparé trois langues (polonais, français et anglais américain) présentant des différences notables dans leur inventaire phonologique. Des positions articulatoires ont été calculées sur la base des fréquences des phonèmes dans chacune des trois langues dans des corpus de parole spontanée. Etonnamment, les résultats tendent à montrer que les positions articulatoires majoritaires sont très similaires dans les trois langues. Il semble ainsi que l’usage de la parole spontanée, et donc la distribution des phonèmes dans les langues, gomme les disparités des systèmes phonologiques pour tendre vers une mobilisation articulatoire commune. Des investigations plus approfondies devront vérifier cette observation.

pdf bib abs
Interaction entre durée et position dans la perception des fricatives voisées chuchotées (Interplay between duration and word position in voicing perception of whispered fricatives)
Yohann Meynadier | Noël Nguyen | Sophie Dufour

Cette étude s’intéresse à la reconnaissance du trait de voisement en parole chuchotée. Nos travaux antérieurs (Dufour & Meynadier 2019) montrent une reconnaissance plus tardive du trait [+voisé] reposant sur un traitement probablement pré-lexical d’informations acoustiques, autres que la vibration laryngée, extraites du signal chuchoté et utilisées dans l’accès lexical. Via une tâche d’identification en perception catégorielle, cette étude révèle que la durée conditionne la perception du voisement des fricatives chuchotées : plus /ʃ/ est long, plus il est perçu [-voisé] ; plus /ʒ/ est bref, plus il est identifié [+voisé]. Cet effet de durée est modulé par le trait sous-jacent de voisement et la position dans le (non)mot. La fricative [+voisé] en position finale montre une frontière perceptive particulièrement décalée vers des durées beaucoup plus longues que les autres.

pdf bib abs
Analyse d’erreurs de transcriptions phonémiques automatiques d’une langue « rare » : le na (mosuo) (Analyzing errors in automatic phonemic transcriptions of the Na (Mosuo) language (SinoTibetan family) Automatic phonemic transcription tools now reach high levels of accuracy on a single speaker with relatively small amounts of training data: on the order two to three hours of transcribed speech)
Alexis Michaud | Oliver Adams | Séverine Guillaume | Guillaume Wisniewski

Les systèmes de reconnaissance automatique de la parole atteignent désormais des degrés de précision élevés sur la base d’un corpus d’entraînement limité à deux ou trois heures d’enregistrements transcrits (pour un système mono-locuteur). Au-delà de l’intérêt pratique que présentent ces avancées technologiques pour les tâches de documentation de langues rares et en danger, se pose la question de leur apport pour la réflexion du phonéticien/phonologue. En effet, le modèle acoustique prend en entrée des transcriptions qui reposent sur un ensemble d’hypothèses plus ou moins explicites. Le modèle acoustique, décalqué (par des méthodes statistiques) de l’écrit du linguiste, peut-il être interrogé par ce dernier, en un jeu de miroir ? Notre étude s’appuie sur des exemples d’une langue « rare » de la famille sino-tibétaine, le na (mosuo), pour illustrer la façon dont l’analyse d’erreurs permet une confrontation renouvelée avec le signal acoustique.

pdf bib abs
Comment l’oreille de présentation affecte-t-elle la capacité des francophones à discriminer des contrastes accentuels natifs et non-natifs ? (How does the ear of presentation affect the ability of French listeners to discriminate native and non-native accentual contrasts?)
Amandine Michelas | Sophie Dufour

Dans cette étude, nous avons examiné la capacité des auditeurs francophones natifs à percevoir la variation accentuelle en manipulant l’oreille de présentation des mots. Deux contrastes accentuels ont été testés : un contraste natif (/balɔ̃/-/baˈlɔ̃/) et un contraste non-natif (/ˈbalɔ̃/-/baˈlɔ̃/). Dans une tâche ABX, les participants entendaient trois mots produits par trois locuteurs différents et devaient déterminer si X était identique à A ou à B. Les stimuli A et B différaient sur l’accent (/ˈbalɔ̃/-/baˈlɔ̃/), sur un phonème (/baˈlɔ/-/baˈlɔ̃/) ou sur l’accent et un phonème (/ˈbalɔ/-/baˈlɔ̃/). Les résultats ont montré des difficultés persistantes pour le contraste non-natif quelle que soit l’oreille de présentation. Par contre, pour le contraste natif, des meilleures performances ont été observées lorsque les mots étaient présentés dans l’oreille gauche. D’une façon générale, notre étude montre que la variation accentuelle présente au niveau du mot est traitée par les auditeurs francophones natifs comme de la variation de surface.

pdf bib abs
Beatboxer, est-ce parler ? Ce que nous en dit l’étude de la dynamique articulatoire d’un beatboxer (Beatboxing, is it talking ? What the study of the articulatory dynamics of a beatboxer tells us Plosive consonants are among the most commonly-found phonemes in the phonological inventory of the world’s languages)
Annalisa Paroni | Nathalie Henrich Bernardoni | Christophe Savariaux | Pierre Baraduc | Hélène Lœvenbruck

Les consonnes plosives sont parmi les phonèmes les plus représentés dans l’inventaire phonologique des langues du monde. Outre leur rôle linguistique, elles remplissent également un rôle paralinguistique dans la pratique instrumentale et vocale, notamment au sein de la pratique vocale du Human Beatbox. Cet article apporte un éclairage sur les similitudes et différences dans la dynamique articulatoire de trois consonnes plosives du français et des sons percussifs correspondants du Human Beatbox. Si ces deux modes de production vocale ont une racine commune, une dynamique articulatoire différente est mise en évidence pour le Human Beatbox. Nous retrouvons des indices d’un mécanisme éjectif, qui a un impact sur la dynamique linguale.

pdf bib abs
Différences acoustiques inter-genres chez des bilingues Anglais/Français : une étude des formants vocaliques et de la qualité de voix (A study of fundamental frequency in female and male English/French bilingual speakers)
Erwan Pépiot | Aron Arnold

Cette étude porte sur les productions de locutrices et locuteurs bilingues anglais/français lors d‟une tâche de lecture. La fréquence des formants vocaliques (F1, F2, F3) et la différence d‟intensité H1H2 ont été mesurées dans les deux langues. Les résultats indiquent un effet significatif des facteurs langue et genre sur l’ensemble de ces paramètres. L‟analyse des formants montre que les locutrices présentent globalement des valeurs plus élevées que les locuteurs, avec néanmoins des variations inter-langues. Aucune différence inter-genres significative n‟a été trouvée sur le F2 du [u] en français, contrairement au [u:] anglais. La différence H1-H2 est significativement plus élevée chez les femmes dans les deux langues, indiquant l‟utilisation d‟une voix plus breathy. Les locutrices présentent une différence H1-H2 moins importante lors de l‟emploi du français, quand l‟inverse est observé chez les hommes. Ces données suggèrent l‟existence de normes vocales dépendantes du genre et de la langue parlée, auxquelles les locuteur·rices bilingues semblent s‟adapter.

pdf bib abs
Corrélats acoustiques et perceptifs de la personnalité perçue à travers la voix dans une population de dysphoniques légères (Acoustical and perceptual correlates of perceived personality through voice in minor dysphonia)
Amelia Pettirossi | Nicolas Audibert | Lise Crevier-Buchman

Nous étudions les corrélats acoustiques et perceptifs de la personnalité à travers la voix dans une population de dysphoniques légères (G1 à G2) et de locutrices témoins (G0). 40 auditeurs naïfs ont évalué les voix de 61 femmes. Des échelles sémantiques différentielles ont été utilisées pour la cotation de la sévérité du trouble vocal et des traits de personnalité. Les 5 échelles sont : Joyeuse/Triste, Sympathique/Désagréable, Dynamique/Molle, Confiante/Hésitante, Aucun trouble vocal/Trouble vocal sévère. Le jugement de la pathologie vocale par les naïfs est principalement lié à l’évaluation experte du grade de dysphonie faite à partir du GRBAS. Des traits de personnalité plus négatifs sont attribués aux locutrices perçues comme plus dysphoniques. Certains facteurs acoustiques (f0, débit syllabique, HNR et ZCR) semblent influencer les auditeurs : les voix plus aigües, plus rauques et avec un débit rapide sont associées à un jugement plus positif.

pdf bib abs
Émergence du contraste entre les fricatives sibilantes /s/ - /ʃ/ du français en contexte d’acquisition bilingue (Emergence of the contrast between the French sibilant fricatives /s/ - /ʃ/ in bilingual acquisition)
Marie Philippart de Foy | Véronique Delvaux | Kathy Huet | Morgane Monnier | Myriam Piccaluga | Bernard Harmegnies

Cette contribution vise à observer l’émergence du contraste de lieu d’articulation entre les fricatives sibilantes sourdes /s/ - /ʃ/ en français chez des bilingues simultanés d’âge préscolaire exposés à l’une des deux combinaisons linguistiques suivantes : français-italien et français-arabe. Les productions orales des enfants ont été recueillies longitudinalement via une tâche de dén omination originale en français. Les deux fricatives ont fait l’objet d’analyses basées sur des données acoustiques , et plus précisément les premier et troisième moments spectraux, et sur les transcriptions phonétiques des productions de parole. L’impact du développement lexical sur la production des deux fricatives a été investigué. Les résultats suggèrent, d’une part, un contraste émergeant plus précocement chez les bilingues français-arabe et, d’autre part, une acquisition plus précoce du /s/ pour l’ensemble des participants.

pdf bib abs
Apport des comptines pour la prononciation du /y/ français chez des enfants italophones : une étude perceptive pilote (Contribution of nursery rhymes for the pronunciation of French /y/ in Italian-speaking children: a perceptive pilot study)
Claire Pillot-Loiseau | Martina Grando

Dans l’apprentissage de /y/ français par des enfants italophones débutants de 6 ans, les comptines sont-elles plus efficaces qu’un apprentissage phonétique les utilisant sans leur rythme et leur mélodies propres ? Deux classes de première année élémentaire d’une école publique milanaise ont suivi douze séances d’apprentissage de la prononciation du Français Langue Etrangère, avec comptines originales pour le Groupe Expérimental (GE) mais juste parlées pour le Groupe Contrôle (GC). L’apprentissage de /y/, durant 4 séances, s’est déroulé avec des tâches de perception, productions corporelle et verbale. Après la troisième séance, 7 enfants du GE et 7 du GC ont été enregistrés sur une comptine, perceptivement évaluée par 4 auditeurs experts et 4 auditeurs étudiants, français natifs : plus d’occurrences sont perçues comme correctes pour le GE chez les auditeurs experts. Pour le GE, /y/ non correctement produit était principalement remplacé par un phonème également antérieur (/i/), contrairement au GC (/u/).

pdf bib abs
Évaluation de systèmes apprenant tout au long de la vie (Evaluation of lifelong learning systems )
Yevhenii Prokopalo | Sylvain Meignier | Olivier Galibert | Loïc Barrault | Anthony Larcher

Aujourd’hui les systèmes intelligents obtiennent d’excellentes performances dans de nombreux domaines lorsqu’ils sont entraînés par des experts en apprentissage automatique. Lorsque ces systèmes sont mis en production, leurs performances se dégradent au cours du temps du fait de l’évolution de leur environnement réel. Une adaptation de leur modèle par des experts en apprentissage automatique est possible mais très coûteuse alors que les sociétés utilisant ces systèmes disposent d’experts du domaine qui pourraient accompagner ces systèmes dans un apprentissage tout au long de la vie. Dans cet article nous proposons un cadre d’évaluation générique pour des systèmes apprenant tout au long de la vie (SATLV). Nous proposons d’évaluer l’apprentissage assisté par l’humain (actif ou interactif) et l’apprentissage au cours du temps.

La voix actée représente un défi majeur pour les futures interfaces vocales avec un potentiel d’application extrêmement important pour la transformation numérique des secteurs de la culture et de la communication, comme la production ou la post-production de voix pour les séries ou le cinéma. Un aspect central de la voix actée repose sur la notion d’interprétation, un aspect peu étudié dans la communauté scientifique de la parole. Cet article propose un état des lieux et une réflexion sur les défis scientifiques et les applications technologiques de la voix actée : à la croisée de l’acoustique, de la linguistique, de la culture, et de l’apprentissage machine. Une analyse préliminaire des pratiques permet de rendre compte de la diversité de l’écosystème des “métiers de la voix” et de pointer les fonctions et les conventions qui s’y rattachent. Nous nous intéresserons ensuite à la pratique particulière du doublage de voix, en faisant ressortir ses enjeux et problématiques spécifiques puis en présentant des solutions proposées pour modéliser les codes expressifs de la voix d’un acteur ou les choix d’un opérateur pour le doublage.

pdf bib abs
Étude des facteurs affectant la compréhensibilité de documents multimodaux : une étude expérimentale (Factors affecting the comprehensibility of multimodal documents : an experimental study )
Estelle Randria | Lionel Fontan | Maxime Le Coz | Isabelle Ferrané | Julien Pinquier

La compréhensibilité de documents audiovisuels peut dépendre de facteurs propres à l’auditeur/spectateur (ex. langue maternelle, performances cognitives) et de facteurs propres aux contenus des documents (ex. complexité linguistique, intelligibilité de la parole). Dans ces travaux, nous étudions les effets de facteurs propres aux contenus sur la compréhensibilité de 55 dialogues extraits de films, présentés à 15 experts (enseignants de français langue étrangère) selon cinq modalités différentes (transcription, transcription + audio, audio, audio + vidéo, transcription + audio + vidéo). Les experts ont évalué les dialogues en termes de compréhensibilité générale, de complexité du vocabulaire, de complexité grammaticale, et d’intelligibilité de la parole. L’analyse de leurs évaluations montre que (1) la complexité du vocabulaire, la complexité grammaticale, et l’intelligibilité de la parole sont significativement corrélées à la compréhensibilité générale, et (2) que les évaluations de compréhensibilité générale ont tendance à être plus élevées lors de présentations multimodales.

pdf bib abs
Évaluer l’intelligibilité, mots ou pseudo-mots ? Comparaison entre deux groupes d’auditeurs (Assess intelligibility, words or pseudo-words? Comparison between two groups of listeners)
Marie Rebourg | Muriel Lalain | Alain Ghio | Corinne Fredouille | Nicolas Fakhry | Virginie Woisard

La perte d’intelligibilité représente une plainte importante des patients traités pour un cancer de la cavité buccale ou de l’oropharynx. L’évaluation de l’intelligibilité est essentielle dans le parcours de soin, mais les tests existants ne sont pas satisfaisants. Basés sur la perception de listes de mots par des auditeurs entraînés à restaurer des séquences sonores dégradées, ils conduisent souvent à une sousévaluation des déficits. Nous avons proposé une nouvelle tâche d’évaluation de l’intelligibilité, la tâche de décodage acoustico phonétique (DAP), basée sur l’utilisation de pseudo-mots (Astésano et al., 2018; Ghio et al., 2018; Ghio et al., soumis, Lalain et al., sous presse). Dans cette étude, nous évaluons la capacité de la tâche DAP à neutraliser les effets de restauration lexicale et d’expertise auditive clinique. Les résultats montrent que contrairement à une évaluation de l’intelligibilité basée sur des mots, une évaluation basée sur des pseudo-mots permet d’obtenir des scores de Déviation Phonologique Perçue (DPP) stables au cours du temps quel que soit le degré d’expertise des auditeurs, naïfs ou cliniciens.

pdf bib abs
Sur le voisement des consonnes fricatives finales en français du Québec (On final fricative consonant voicing in Quebec French)
Josiane Riverin-Coutlée

Cette étude s’intéresse aux indices acoustiques qui concourent à distinguer les fricatives non voisées /f s ʃ/ et voisées /v z ʒ/ en position de finale absolue en français du Québec. La durée de la consonne elle-même, celle de la voyelle accentuée précédente et le taux de voisement consonantique sont les indices acoustiques examinés. La durée intrinsèque des voyelles, caractéristique importante de la variété à l’étude, est prise en compte lors de l’analyse des résultats, qui indiquent que les deux groupes de consonnes se distinguent en tous points. Les consonnes voisées ont une durée plus courte, présentent un taux de voisement supérieur quoique moindre que celui rapporté dans la littérature antérieure, et allongent les segments vocaliques précédents. Ce dernier phénomène se produit même lorsque la voyelle est intrinsèquement longue, révélant la robustesse de l’effet allongeant des consonnes voisées et l’extensibilité de la durée vocalique en français québécois.

pdf bib abs
Imprécision dans la production des voyelles : un potentiel marqueur infraclinique dans la maladie de Parkinson (Imprecision of vowel production: a potential subclinical marker in Parkinson’s disease)
Virginie Roland | Véronique Delvaux | Kathy Huet | Myriam Piccaluga | Bernard Harmegnies

La maladie de Parkinson est une maladie neurodégénérative qui affecte le système neuro-moteur. Une grande variété de troubles de la parole, généralement regroupés sous les termes de dysarthrie hypokinétique, peuvent apparaitre. Dans cette contribution, nous présentons les résultats d’une étude acoustique comparative de la production de voyelles par 63 locuteurs MP dysarthriques et non dysarthriques, avec 35 locuteurs sains. Notre objectif est d’étudier la production de voyelles isolées afin de répondre à la question : l’imprécision dans la production des voyelles peut-elle être considérée comme un marqueur infraclinique de la dysarthrie ?

pdf bib abs
Modèles de l’enrouement de la voix (Models of vocal roughness )
Jean Schoentgen | Philipp Aichinger | Francis Grenez

L’objectif est l’étude des causes des dispériodicités des voix du type 1 qui sont pseudo-périodiques et monophoniques. Un modèle qui explique quantitativement les perturbations des durées de cycles glottiques fait appel aux fluctuations de la tension du muscle vocal. Or, ces fluctuations n’expliquent pas l’enrouement qui peut faire suite à une charge vocale ou une laryngite légère, par exemple. C’est pourquoi, nous discutons plusieurs modèles qui montrent qu’une redistribution des amplitudes vibratoires entre le corps et la couverture du pli module les perturbations qui trouvent leur origine au niveau du muscle vocal. Des simulations à l’aide d’un modèle corps-couverture suggèrent ainsi que les perturbations des durées des cycles glottiques augmentent avec une redistribution des amplitudes vibratoires de la couverture vers le muscle suite à une redistribution des masses vibrantes du muscle vers la couverture.

pdf bib abs
La « voyelle apicale » n’est pas une voyelle : étude acoustique et articulatoire de la voyelle apicale en chinois de Jixi (The ‘apical vowel’ is not a vowel: An acoustic and articulatory study of the apical vowel in Jixi-Hui Chinese)
Bowei Shao | Rachid Ridouane

Cette étude s’intéresse à la « voyelle apicale », notée /z/, telle qu’elle est attestée en chinois de Jixi. L’objectif est de déterminer sa nature phonétique sur la base de données acoustiques et articulatoires. Phonologiquement, ce segment est un phonème distinct qui s’oppose à /i/ dont il est issu diachroniquement. Il est exclusivement attesté en position noyau de syllabe où il constitue une unité porteuse de ton. Sur le plan articulatoire, les données ultrasoniques démontrent que, quand il est précédé de consonnes bilabiales /p, ph, m/, il présente un geste articulatoire semblable à celui de la fricative alvéolaire /s/. Ce geste est réalisé de manière anticipatoire durant la tenue des bilabiales. Une des conséquences de cette réalisation est que le relâchement de /ph/ présente les mêmes caractéristiques acoustiques que le bruit de friction de la fricative /s/, comme l’atteste la ressemblance de leur centre de gravité. Ces résultats montrent que la voyelle apicale en chinois de Jixi est mieux définie, au moins du point de vue phonétique, comme une fricative alvéolaire.

pdf bib abs
Symbolisme phonétique du genre dans les prénoms français (Sex-biased sound symbolism in French first names)
Alexandre Suire | Alba Bossoms Mesa | Michel Raymond | Melissa Barkat-Defradas

Le symbolisme phonétique suggère un lien naturel entre les sons et la signification d’un mot. Les prénoms constituent d’excellents candidats afin d’étudier ces relations selon les prédictions de la théorie « code-fréquence », selon laquelle les sons de basses fréquences sont perceptivement associés à une large corpulence et par extension à la masculinité, tandis que les sons de hautes fréquences sont associés à la petitesse et à la féminité. En analysant les prénoms français attribués entre 1900 et 2009, nous avons confirmé ces prédictions en observant une différence significative de la qualité de la voyelle sur la syllabe perceptivement proéminente : les prénoms masculins exhibent plus fréquemment des voyelles de basses fréquences (e.g. /o/) tandis que les prénoms féminins attestent plus souvent des voyelles de hautes fréquences (e.g. /i/).

pdf bib abs
Caractérisation des plosives finales dans des langues d’Asie : une étude multilingue du non relâchement (Characterization of Stop Consonants in Asian Languages: A two-language Study of Unreleased)
Thi-Thuy-Hien Tran | Nathalie Vallée | Christophe Savariaux | Inyoung Kim | Sunhee Kim

Cette étude propose de caractériser le non relâchement des plosives finales /p, t, k/ de deux langues d’Asie, tonale (vietnamien) et non tonale (coréen), du point de vue aérodynamique et glottographique. Le comportement glottique (ouverture et fermeture de la glotte, position verticale du larynx) a été examiné en synchronisation avec les valeurs de débits d’air (oral et nasal) pendant les phases de la réalisation consonantique. Les résultats mettent en évidence (1) l’absence de relâchement nasal après l’occlusion de la plosive finale pouvant entraîner une baisse de la pression intraorale, (2) que le larynx s’abaisse systématiquement durant la tenue de la consonne. Cette stratégie de réalisation va dans le sens de notre hypothèse selon laquelle les plosives non relâchées sont produites avec un mécanisme permettant de diminuer la pression intraorale de manière à minimiser le coût articulatoire de la tenue de la closion avec, pour conséquence acoustique, l’absence de burst.

pdf bib abs
Capacités d’apprentissage phonétique chez des patients aphasiques francophones : étude de cas (Phonetic learning abilities in French-Speaking aphasic patients : a case study)
Clémence Verhaegen | Véronique Delvaux | Kathy Huet | Sophie Fagniart | Myriam Piccaluga | Bernard Harmegnies

Cette étude explore les capacités de patients aphasiques, présentant des troubles phonologicophonétiques, notamment des difficultés de coordination temporelle entre les articulateurs, à acquérir une variante phonétique, non familière dans leur langue, nécessitant l’adoption de nouveaux schèmes articulatoires. 4 patients aphasiques, de langue maternelle française, ont participé à la présente étude, ainsi que 36 participants contrôles. Au cours du paradigme d’apprentissage, la tâche principale consistait à répéter des non-mots C[t]V[a], dont le VOT est de 60ms et ce à 3 reprises : avant toute intervention, puis après un « entraînement » en perceptiontâche de discrimination de 5 non-mots CV dont le VOT variait entre 20 et 100ms, enfin après un « entraînement » en production-tâche de répétition de ces 5 non-mots. Les participants étaient par ailleurs amenés à effectuer une tâche de calibration, destinée à évaluer leur VOT en français. Les patients présentent une plus grande variabilité des durées de VOT. Trois patients sur quatre montrent des valeurs de VOT plus longues entre la calibration et les tâches de répétition de VOT60ms indiquant des capacités d’apprentissage phonétique. Les liens entre ces observations et les profils des patients, ainsi que les implications pour la rééducation du langage, seront discutés.

pdf bib abs
Qualité vocale dans l’acquisition d’une langue étrangère : le cas des apprenants sinophones en FLE (Voice quality in the second language acquisition: The case of Chinese learners of French as Foreign Language)
Dongjun Wei | Mohamed Embarki

L’étude porte sur les configurations de la qualité vocale de huit apprenants sinophones qui parlent en mandarin dans une tâche de production de La bise et le soleil en L1 chinois et L2 français. Une comparaison est faite avec la lecture en français de quatre locuteurs natifs du français. Les corpus chinois/français sont utilisés pour recueillir les impressions d’auditeurs français sur la qualitévocale des apprenants sinophones. Des enregistrements vidéo ont étéégalement réalisés en L1 chinois et L2 français par les mêmes apprenants. Les données subjectives récoltées conformément à la littérature indiquent des variations de configurations de la qualitévocale dans les deux langues. Les mesures acoustiques, Fo moyenne du texte lu et Fo moyenne de la voyelle [a], présentent dans les deux langues des variations ordonnées intra- et interindividuelles, entre lecture en L1 chinois et lecture en L2 français, et entre locuteurs L1 français et apprenants L2 français.

pdf bib abs
Réduction temporelle en français spontané : où se cache-t-elle ? Une étude des segments, des mots et séquences de mots fréquemment réduits ()
Yaru Wu | Martine Adda-Decker

Cette étude vise à proposer une méthode adaptée à l’étude de divers phénomènes de variation dans les grands corpus utilisant l’alignement automatique de la parole. Cette méthode est appliquée pour étudier la réduction temporelle en français spontané. Nous proposons de qualifier la réduction temporelle comme la réalisation de suites de segments courts consécutifs. Environ 14% du corpus est considéré comme réduit. Les résultats de l’alignement montrent que ces zones impliquent le plus souvent plus d’un mot (81%), et que sinon, la position interne du mot est la plus concernée. Parmi les exemples de suites de mots les plus réduits, on trouve des locutions utilisées comme des marqueurs discursifs.

pdf bib abs
Les variations du schwa transitionnel en tachlhit : Une analyse acoustique (Variations of transitional schwa in Tashlhiyt: an acoustic analysis)
Minmin Yang | Rachid Ridouane

Les caractéristiques temporelles et spectrales du schwa transitionnel en tachlhit sont analysées dans cette étude. Nous avons examiné 18 items du type C1C2VC afin d’explorer comment la durée et la qualité de ce vocoïde sont affectées par le contexte consonantique et vocalique avoisinant. Les résultats obtenus à partir de la réalisation de 7 locuteurs natifs montrent que la durée du schwa est beaucoup plus court comparées aux voyelles pleines. Alors que cette durée varie peu selon le contexte, la qualité du schwa peut être affectée par une combinaison de facteurs incluant la nature de la voyelle qui suit, ainsi que le lieu et le mode d’articulation des consonnes adjacentes. Ces variations sont observées pour F1, F2 et F3, et la plupart d’entre elles peuvent être prédites selon que la consonne qui suit est une occlusive emphatique ou une sonante battue.

pdf bib abs
Effets du sexe et de la langue parlée sur la production de la parole chez les locuteurs coréens et français (Effects of sex and language spoken on speech production among Korean and French speakers)
Dayeon Yoon | Nicolas Audibert | Cécile Fougeron

Cette étude a pour but d’examiner l’effet du sexe et de la langue sur la production de la parole lue des locuteurs coréens et français. Dix paramètres acoustiques sont utilisés pour caractériser trois grandes dimensions : la voix (moyenne et écart-type de la F0, pente de LTAS et CPPs) ; les résonances du conduit vocal (F1 et F2 de /a/ et /i/) ; la gestion temporelle (débit de parole et articulatoire). Comme attendu, on observe une interaction entre sexe et langue sur la plupart des paramètres acoustiques supposés différencier les voix de femmes de celles d’hommes. Seuls le F1 de /i/ et la gestion temporelle ne montrent pas d’interaction entre sexe et langue. Ces résultats suggèrent que la différenciation de la voix entre sexes dépend de la langue parlée.

pdf bib abs
Étude des caractéristiques spatio-temporelles de la production de la parole chez des patients glossectomisés (An acoustic study of spatio-temporal characteristics of speech production in glossectomised patients)
Hasna Zaouali | Béatrice Vaxelaire | Christian Debry | Rudolph Sock

Cette étude porte sur les caractéristiques spatio-temporelles de la production de séquences VCV par des patients glossectomisés suite à un cancer endo-buccal. Plus précisément, il s’agit d’analyser les différents paramètres acoustiques (V1, VOT, VTT, silence, occlusion, V2), cette analyse nous permettra de rendre compte des conséquences d’une glossectomie sur le timing des gestes articulatoires (Sock, 1998). Dix patients ont été enregistrés sur plusieurs phases pré- et postchirurgicales ; il s’agit donc d’une étude longitudinale. Le corpus étudié est composé de huit séquences de type VCV. L’objectif est principalement d’observer à partir du signal acoustique, différents événements acoustiques interprétables directement en termes articulatoires, en tentant ainsi de remonter aux configurations articulatoires. L’analyse statistique a montré des modifications significatives au niveau de la durée pour toutes les variables mesurées lors des phases d’enregistrements post-chirurgicales. En effet, une amélioration dans la production des séquences apparaît progressivement avec le temps et la réhabilitation orthophonique qui se manifeste pour certains patients par un retour aux valeurs initialement relevées lors de la phase pré-chirurgicale.

pdf bib abs
Perception des tons du mandarin par les apprenants français : effets des contextes segmental et syllabique (In the present study, we report two experiments aimed at exploring the contributions of segmental and syllabic contexts to French learners’ perception of Mandarin tones)
Qing Zhou | Didier Demolin

Dans la présente étude, nous rapportons deux expériences visant à explorer les contributions des contextes segmental et syllabique à la perception des tons du mandarin par les apprenants français. Dans la première, des stimuli monosyllabiques produits naturellement, composés de 9 attaques ([ø(zéro), p, t, tʰ, tɕ, ɕ, tʂ, tʂʰ, m]) et 2 rimes ([i, ɑu]), ont été identifiés par 19 apprenants français de mandarin de niveau débutant et 18 auditeurs de langue maternelle mandarin. Dans la deuxième, les stimuli composés de 6 types de syllabes (V, VV, VN, CV, CVV, CVN) ont été catégorisés par deux autres groupes d’auditeurs. Nos résultats montrent que contrairement aux auditeurs natifs, la perception tonale des apprenants français est influencée de manière significative non seulement par les caractéristiques tonales, mais aussi par les attaque-, rime- and syllabe-types. Cela suggère que les études d’acquisition des tons L2 devraient prendre en compte non seulement le système tonal de la L2, mais aussi le système phonologique segmental de la L2.