Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Christophe Benzitoun, Chloé Braud, Laurine Huber, David Langlois, Slim Ouni, Sylvain Pogodalla, Stéphane Schneider (Editors)


Anthology ID:
2020.jeptalnrecital-jep
Month:
6
Year:
2020
Address:
Nancy, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA et AFCP
URL:
https://aclanthology.org/2020.jeptalnrecital-jep/
DOI:
Bib Export formats:
BibTeX MODS XML EndNote

Nous étudions ici la différence des patterns prosodiques entre deux styles de lecture, un que nous appelons ‘lecture littéraire neutre’ et un style de ‘lecture des contes’. Les données appartenant au style de ‘lecture de contes’ comportent deux sous-ensembles, des contes destinés aux jeunes enfants (0-6 ans) et des contes destinés aux enfants plus âgés et aux adultes. Les corpus ont été manuellement annotés avec des étiquettes sémantico-prosodiques exprimant des attitudes, des émotions et d’autres styles prosodiques. Une analyse détaillée des caractéristiques prosodiques nous a permis d’identifier les traits pertinents des patterns intonatifs des différentes étiquettes et des différents styles de lecture. Une quantification vectorielle, utilisant essentiellement des informations de F0, a été utilisée pour dégager les patterns prosodiques typiques correspondant aux différentes étiquettes. Une classification automatique basée sur des paramètres prosodiques a montré une bonne identification des étiquettes quand leur fréquence était suffisamment élevée pour obtenir une modélisation robuste.
Dans cette étude, nous nous intéressons à la réalisation des contours de continuation en français, par des apprenants japonophones en parole semi-spontanée. Pour ce faire, nous avons analysé des productions obtenues à partir de description d’images en prenant en compte le niveau d’apprentissage et différentes positions prosodiques. Les résultats montrent une bonne gestion de la fréquence fondamentale par les apprenants. En effet, ils produisent des montées prosodiques aux frontières de AP et IP et sont capables de produire des montées plus importantes aux frontières de IP. Cependant, la gestion du paramètre de durée est moins homogène. Les résultats montrent que la durée n’est pas un paramètre acoustique robuste utilisé pour produire la continuation. Ces résultats suggèrent que les deux paramètres acoustiques de durée et de F0 ne peuvent pas être mis au même niveau quant à l’analyse de la continuation.
La production de la parole chez la personne âgée a fait l’objet de nombreuses études qui portaient essentiellement mais pas exclusivement sur les aspects vocaux. Dans ce travail exploratoire, nous cherchons à évaluer les effets du vieillissement sur l’organisation de la lecture. La distribution des pauses et des groupes rythmiques, ainsi que leurs durées respectives ont été quantifiés, de même que la vitesse d’élocution et la vitesse d’articulation pour un groupe de 10 locuteurs âgés (60 à 80 ans) et un groupe de 10 locuteurs témoins (40 à 55 ans). Les résultats indiquent des différences significatives pour les durées des groupes rythmiques et des pauses et pour la vitesse d’élocution ; les locuteurs âgés ayant un débit plus lent que les locuteurs plus jeunes. Ces différences nous semblent intéressantes à poursuivre afin d’étudier plus précisément les différentes stratégies de réorganisation que peuvent mettre en place les locuteurs en fonction de leur âge.
Dans cet article nous proposons une méthode d’adaptation du lexique, destinée à améliorer les systèmes de la reconnaissance automatique de la parole (SRAP) des locuteurs non natifs. En effet, la reconnaissance automatique souffre d’une chute significative de ses performances quand elle est utilisée pour reconnaître la parole des locuteurs non natifs, car les phonèmes de la langue étrangère sont fréquemment mal prononcés par ces locuteurs. Pour prendre en compte ce problème de prononciations erronées, notre approche propose d’intégrer les prononciations non natives dans le lexique et par la suite d’utiliser ce lexique enrichi pour la reconnaissance. Pour réaliser notre approche nous avons besoin d’un petit corpus de parole non native et de sa transcription. Pour générer les prononciations non natives, nous proposons de tenir compte des correspondances graphèmes-phonèmes en vue de générer de manière automatique des règles de création de nouvelles prononciations. Ces nouvelles prononciations seront ajoutées au lexique. Nous présentons une évaluation de notre méthode sur un corpus de locuteurs non natifs français s’exprimant en anglais.
Cet article présente un travail de description phonotactique du russe basé sur une analyse de 15 000 lemmes transcrits phonologiquement et syllabés. Un ensemble de données quantitatives relatives aux structures syllabiques a été examiné dans une perspective typologique. À partir d’une analyse distributionnelle des segments consonantiques ±PAL, des probabilités phonotactiques ont été estimées. Les résultats montrent que le russe suit globalement les tendances générales observées dans les langues de la base de données G-ULSID (Vallée, Rousset & Rossato, 2009) et mettent en évidence des asymétries de distribution des consonnes ±PAL à l’intérieur de la syllabe. Le fait que le système consonantique du russe présente une distinctivité ±PAL étendue à tous les lieux d’articulation, semble contraindre les coccurrences entre consonne et voyelle d’une même syllabe prédites par la théorie Frame/Content (MacNeilage, 1998) et trouvées dans de nombreuses langues.
Dans cette étude nous examinons, sur un groupe varié de 29 locuteurs, les différences de réponses entre locuteur à une demande explicite de modification du débit tout d’abord dans une tâche de répétition rapide, puis entre une tâche de lecture et une tâche de répétition confortable. Ces réponses sont évaluées en termes de débit articulatoire et de réduction vocalique (temporelle et/ou spectrale). Les résultats montrent différents profils de réponses dans la tâche de répétition rapide par rapport à la même tâche sans contrainte temporelle, et on voit que le débit peut être augmenté avec ou sans réduction spectrale. On montre également une forte variation dans les réponses des locuteurs à une tâche de répétition confortable par rapport à de la lecture, avec pour certains locuteurs des différences nettes d’organisation spectro-temporelle. Dans cette tâche assez artificielle de répétition, sans instruction précise, davantage de différences individuelles émergent.
Le “code-switching” ou l’alternance codique - l’alternance entre plusieurs langues dans une seule interaction - offre une occasion unique d’observer comment les locuteurs multilingues utilisent leurs langues. Récemment, des études phonétiques sur les qualités acoustiques des énoncés codeswitchés, telles que le VOT, ont examiné comment les locuteurs équilibrent plusieurs systèmes phonologiques. La présente étude examine les effets du code-switching sur le VOT des occlusives sourdes /p t k/ produites par les locuteurs bilingues anglais-français (L1 anglais et L1 français), d’une acquisition tardive de leur L2. Les données ont été recueillies à partir des enregistrements de discours conversationnels, entre des binômes de participants. Pour les participants francophones (L1 français), le VOT du /p/ des mots anglais était plus long lors d’un code-switch (du français, vers l’anglais) que dans un énoncé tiré d’une conversation monolingue anglais, et le VOT du /t/ était plus court. Aucun effet de contexte (le fait qu’une occlusive mesurée vienne d’un code-switch vers l’anglais ou lors d’une conversation monolingue anglais) n’a été observé pour les anglophones (L1 anglais).
La reconnaissance des entités nommées (REN) à partir de la parole est traditionnellement effectuée par l’intermédiaire d’une chaîne de composants, exploitant un système de reconnaissance de la parole (RAP), puis un système de REN appliqué sur les transcriptions automatiques. Les dernières données disponibles pour la REN structurées à partir de la parole en français proviennent de la campagne d’évaluation ETAPE en 2012. Depuis la publication des résultats, des améliorations majeures ont été réalisées pour les systèmes de REN et de RAP. Notamment avec le développement des systèmes neuronaux. De plus, certains travaux montrent l’intérêt des approches de bout en bout pour la tâche de REN dans la parole. Nous proposons une étude des améliorations en RAP et REN dans le cadre d’une chaîne de composants, ainsi qu’une nouvelle approche en trois étapes. Nous explorons aussi les capacités d’une approche bout en bout pour la REN structurées. Enfin, nous comparons ces deux types d’approches à l’état de l’art de la campagne ETAPE. Nos résultats montrent l’intérêt de l’approche bout en bout, qui reste toutefois en deçà d’une chaîne de composants entièrement mise à jour.
Cet article présente la base de données PTSVOX, créée par le Service Central de la Police Technique et Scientifique (SCPTS) spécifiquement pour la comparaison de voix dans le cadre judiciaire. PTSVOX contient 369 locuteurs et locutrices qui ont été enregistrés au microphone et au téléphone. PTSVOX a été conçue pour mesurer l’influence de différents facteurs de variabilité fréquemment rencontrés dans les cas pratiques en identification judiciaire, comme le type de parole, le temps écoulé et le matériel d’enregistrement. Pour cela, 24 des locuteurs de PTSVOX (12 hommes et 12 femmes) ont été enregistrés une fois par mois pendant 3 mois, en parole spontanée et en parole lue. Dans cet article, nous présentons dans un premier temps la base PTSVOX, puis nous décrivons des protocoles standards ainsi que les systèmes de référence associés à PTSVOX, avec une évaluation de leur performance.
Si l’étude de la variabilité entre locuteurs permet d’identifier des caractéristiques phonétiques potentiellement discriminantes, voire spécifiques, il est essentiel de comprendre, si et comment, ces caractéristiques varient chez un même locuteur. Ici, nous examinons la variabilité de caractéristiques liées à la gestion temporelle de la parole sur un nombre limité de locuteurs, enregistrés sur plusieurs répétitions dans une même session, et sur 6 à 7 sessions espacées d’une année. Sur cette vingtaine d’enregistrements par locuteur, nous observons comment le débit articulatoire, les modulations de ce débit, et la durée des pauses varient en fonction de la répétition et de la session et en interaction avec le locuteur. Les résultats montrent que c’est dans la variation de gestion temporelle de la parole que les locuteurs se distinguent les uns des autres, en termes de régularité ou non entre enregistrements et au sein d’un même enregistrement.
Dans ce travail nous avons recours aux variations de f0 et d’intensité de 44 locuteurs francophones à partir de séquences de 4 secondes de parole spontanée pour comprendre comment ces paramètres prosodiques peuvent être utilisés pour caractériser des locuteurs. Une classification automatique est effectuée avec un réseau de neurones convolutifs, fournissant comme réponse des scores de probabilité pour chacun des 44 locuteurs modélisés. Une représentation par spectrogrammes a été utilisée comme référence pour le même système de classification. Nous avons pu mettre en avant la pertinence de l’intensité, et lorsque les deux paramètres prosodiques sont combinés pour représenter les locuteurs nous observons un score qui atteint en moyenne 59 % de bonnes classifications.
Cet article se propose d’envisager l’existence d’une grammaire spécifique aux interactions nasalisées (Chlébowski et Ballier, 2015). Notre proposition se fonde sur une annotation des composantes acoustiques de cette sous-catégorie de sons non-lexicaux (Ward, 2006) dans le corpus CID (Bertrand et al., 2008). Nous voudrions présenter les contraintes combinatoires et régularités qui semblent s’appliquer à ces composantes acoustiques, ainsi que discuter leur structuration. Les résultats préliminaires de l’analyse des composantes acoustiques semblent suggérer des plages de valeurs par défaut pour les réalisations des IN (notamment pour la durée). La violation de ces usages peut donner lieu à une analyse de type gricienne d’implicature.
La mutualisation et diffusion des grands corpus de parole permet de réexaminer des analyses précédentes effectuées sur des corpus plus petits, afin de vérifier si les conclusions de ces analyses se généralisent aux nouvelles données. Dans cette étude, nous présentons les résultats préliminaires d’une analyse de la variation des styles de parole en français, basée sur un corpus à grande échelle (300 heures, 2500 locuteurs). Le corpus a été réaligné au niveau des phones, syllabes et mots, et une annotation morphosyntaxique et syntaxique a été ajouté en améliorant les annotations existantes. Plusieurs caractéristiques acoustiques et prosodiques sont automatiquement extraites et une analyse statistique (analyse en composantes principales, ACP) est effectuée afin d’explorer les caractéristiques des styles de parole et leur variance. Nous explorons aussi la relation entre frontières prosodique et syntaxiques comme méthode pour discriminer les styles de parole. 1
Cette étude a pour objectif de proposer une quantification de l’accent étranger se basant sur des mesures rythmiques. Nous avons utilisé le Corpus pour l’Étude du Français Contemporain, qui propose plus de 300 heures de parole aux profils de locuteurs et aux situations variés. Nous nous sommes concentrés sur 16 paramètres temporels estimés à partir des durées de voisement et de syllabes. Un mélange gaussien a été appris sur les données de 1 340 natifs du français, puis testé sur des extraits de 146 natifs tirés au hasard (NS), sur ceux des 37 non-natifs présents dans le corpus (NNS), ainsi que sur des enregistrements de 29 apprenants japonais de niveau A2 d’un autre corpus. La probabilité que les NNS aient une log-vraisemblance inférieure aux NS ne dépasse pas la tendance (p = 0, 067), mais celle pour les apprenants japonais est beaucoup plus significative (p < 0, 0001). L’étude de la répartition des paramètres entre les différents groupes met en avant l’importance du débit de parole et des durées de voisement. 1
Dans le passé, les descripteurs contextuels pour la synthèse de la parole acoustique ont été étudiés pour l’entraînement des systèmes basés sur des HMMs. Dans ce travail, nous étudions l’impact de ces facteurs pour la synthèse de la parole audiovisuelle par DNNs. Nous analysons cet impact pour les trois aspects de la parole : la modalité acoustique, la modalité visuelle et les durées des phonèmes. Nous étudions également l’apport d’un entraînement joint et séparé des deux modalités acoustique et visuelle sur la qualité de la parole synthétique générée. Finalement, nous procédons à une validation croisée entre les résultats de la synthèse des différentes émotions. Cette validation croisée, nous a permis de vérifier la capacité des DNNs à apprendre des caractéristiques spécifiques à chaque émotion.
Dans cette étude nous nous intéressons à l’analyse spectrale d’imitation de grosses caisses, de charleston et de caisse claire dans un paradigme d’augmentation de la vitesse de production. La vitesse de production a été contrôlée en utilisant un métronome à vibration paramétré à 90, 120 puis 150 battements par minute. Le Centre de Gravité spectral et le coefficient d’asymétrie ont été mesurés pour inférer la stabilité et la variabilité articulatoire des sons produits dans les patterns beatboxés. Les grosse caisses sont les sons les plus contrôlés suivi par les caisses claires puis les charlestons.
Dans les travaux sur la prosodie du français sont généralement proposés deux ou trois niveaux de structuration prosodique: le syntagme accentuel, le syntagme intermédiaire et le syntagme intonatif. Alors que les auteurs sont souvent d’accord sur les modalités de construction du syntagme accentuel, il n’en est pas de même pour les deux autres niveaux. Dans cet article, nous proposons de redéfinir le syntagme intermédiaire. Cette proposition diffère des autres travaux en deux points. Premièrement, l’extension et le statut du syntagme intermédiaire est clarifié pour en faire une unité métrique. Deuxièmement, une distinction est faite entre cette unité et deux types de syntagme intonatif. Cette proposition se base sur l’inventaire des contours observés à la frontière droite de ces unités et sur l’étude des relations qu’elles entretiennent avec les structures morpho-syntaxique et sémantique. Elle vise à rendre compte du phrasé et du choix des contours intonatifs à un niveau phonologique sous-jacent.
Forts d’une utilisation couronnée de succès en traduction automatique, les systèmes end-to-end dont la sortie réside en une suite de caractères, ont vu leur utilisation étendue à la transcription automatique de la parole. De nombreuses comparaisons ont alors été effectuées sur des corpus anglais libres de droits, de parole lue. Nous proposons ici de réaliser une comparaison entre deux systèmes état de l’art, non pas sur de la parole lue mais bel et bien sur un corpus d’émissions audiovisuelles françaises présentant différents degrés de spontanéité. Le premier est un end-to-end et le second est un système hybride (HMM/DNN). L’obtention de résultats satisfaisants pour le end-to-end nécessitant un lexique et modèle de langage dédiés, il est intéressant de constater qu’une meilleure intégration dans les systèmes hybrides (HMM/DNN) est source de performances supérieures, notamment en Français où le contexte est primordial pour capturer un énoncé.
Nous comparons les effets de deux conditions induisant des stratégies d’adaptation différentes (retour auditif masqué et bite-block) avec les effets des modifications intentionnelles du débit de parole. Nous examinons ces effets en termes de F1 et en termes de débit articulatoire. Nous comparons ensuite les effets de ces mêmes perturbations sur les mêmes locuteurs, afin de définir si les stratégies inter- et intra-individuelles varient en fonction de la boucle perturbée (auditive ou somatosensorielle). Cinq locutrices ont été enregistrées sans perturbation, avec un retour auditif masqué, avec un bite-block et avec des changements de tempo instruits (lent et rapide). Les résultats montrent une augmentation du débit en parallèle d’une augmentation du F1 des voyelles ouvertes, ce qui permet de supposer que les modifications spectrales et les modifications de débit ne seraient pas corrélées. La même augmentation de F1 est observée lors d’une modification intentionnelle du débit de parole.
Les patients atteints de la maladie de Parkinson (MDP) présentent généralement des déficits dans la production de la parole. Nous avons examiné l’identification perceptive des consonnes intervocaliques produites par 10 locuteurs avec MDP et 10 locuteurs sains en lecture de texte. Pour neutraliser le contenu sémantique, toutes les consonnes intervocaliques ont été isolées avec la moitié des voyelles précédente et suivante. 20 adultes natifs francophones ont été chargés de transcrire les séquences du corpus. La consonne rapportée a été examinée par rapport à la consonne prototypique; le score de distorsion est le nombre de traits phonétiques différents par rapport à la consonne prototypique. Les résultats ont été examinés en fonction des facteurs linguistiques suivants: nature de la consonne, contexte vocalique oral / nasal, classe de mot (fonction ou contenu) et position dans les syntagmes. L’imprécision de la consonne a été confirmée dans la parole des locuteurs MDP. MOTS-CLÉS : perception, dysarthrie parkinsonienne, phonétique clinique, traits phonétiques
L’hypothèse du codage efficace prédit que les systèmes perceptifs sont optimalement adaptés aux propriétés statistiques des signaux naturels. Ce caractère optimal a été récemment évalué sur la base d’analyses statistiques réalisées sur des décompositions spectrales de signaux de parole représentés comme des modulations d’énergie. Ces travaux pourraient trouver des applications directes dans l’amélioration du codage des signaux acoustiques par des implants cochléaires. Cependant, les recherches sur la perception de la musique par des personnes sourdes portant un implant cochléaire mettent en avant des limites qui semblent discordantes avec les performances observées concernant certaines propriétés fondamentales de la parole. Nous comparons les résultats d’analyses statistiques de signaux musicaux avec ceux qui ont été réalisés sur de la parole dans le but d’évaluer les impacts respectifs de ces deux gammes de signaux sonores pour évaluer leurs contributions à cette proposition théorique. Des résultats préliminaires et les perspectives futures sont discutés.
Les systèmes automatiques d’identification de la langue subissent une dégradation importante de leurs performances quand les caractéristiques acoustiques des signaux de test diffèrent fortement des caractéristiques des données d’entraînement. Dans cet article, nous étudions l’adaptation de domaine non supervisée d’un système entraîné sur des conversations téléphoniques à des transmissions radio. Nous présentons une méthode de régularisation d’un réseau de neurones consistant à ajouter à la fonction de coût un terme mesurant la divergence entre les deux domaines. Des expériences sur le corpus OpenSAD15 nous permettent de sélectionner la Maximum Mean Discrepancy pour réaliser cette mesure. Cette approche est ensuite appliquée à un système moderne d’identification de la langue reposant sur des x-vectors. Sur le corpus RATS, pour sept des huit canaux radio étudiés, l’approche permet, sans utiliser de données annotées du domaine cible, de surpasser la performance d’un système entraîné de façon supervisée avec des données annotées de ce domaine.
Cette étude a pour but de déterminer dans quelle mesure la polypose naso-sinusienne impacte l’aérodynamique des flux oral et nasal. Ainsi, nous avons enregistré des patients atteints de cette pathologie avant et après chirurgie. Plusieurs éléments ont pu être mis en lumière : une modification du passage de l’air dans la cavité nasale et une meilleure coordination des flux d’air oral et nasal après chirurgie.
Le human-beatbox est un art vocal utilisant les organes de la parole pour produire des sons percussifs et imiter les instruments de musique. La classification des sons du beatbox représente actuellement un défi. Nous proposons un système de reconnaissance des sons de beatbox s’inspirant de la reconnaissance automatique de la parole. Nous nous appuyons sur la boîte à outils Kaldi, qui est très utilisée dans le cadre de la reconnaissance automatique de la parole (RAP). Notre corpus est composé de sons isolés produits par deux beatboxers et se compose de 80 sons différents. Nous nous sommes concentrés sur le décodage avec des modèles acoustiques monophones, à base de HMM-GMM. La transcription utilisée s’appuie sur un système d’écriture spécifique aux beatboxers, appelé Vocal Grammatics (VG). Ce système d’écriture s’appuie sur les concepts de la phonétique articulatoire.
L’implant cochléaire, malgré une amélioration considérable de la perception auditive, ne fournit qu’une information acoustique partielle, pouvant donner lieu à des difficultés de perception de certains contrastes phonétiques. L’étude présentée vise à déterminer les compétences de perception et de production des voyelles nasales et orales d’enfants porteurs d’implants cochléaires en comparaison aux compétences d’enfants normo-entendants. Malgré des résultats très satisfaisants dans les deux groupes, on observe des patterns d’erreurs spécifiques au groupe d’enfants implantés dans les tâches perceptives, ainsi que certaines particularités dans la réalisation phonétique des voyelles nasales, portant notamment sur les valeurs de bande passante.
Dans cette étude, nous explorons la prédiction a priori de la qualité de la transcription automatique de la parole dans le cas de la parole réverbérée enregistrée avec un seul microphone. Cette prédiction est faite avant le décodage pour informer les utilisateurs de la qualité de la transcription attendue. Dans cette étude, nous nous concentrons uniquement sur les pertes de performance liées à la réverbération. Une nouvelle mesure de réverbération appelée « Excitation Behavior » est introduite. Cette mesure exploite le résidus de la prédiction linéaire sur les fenêtres voisées du signal de parole. L’expérience a été menée sur le corpus Wall Street Journal, réverbéré par des réponses impulsionnelles provenant du REVERB Challenge. Par rapport aux autres mesures de réverbération testées, notre mesure obtient une amélioration relative de 20% de la prédiction du taux d’erreur (aussi bien au niveau des phonèmes que des mots).
La Reconnaissance Automatique de la Parole (RAP) est moins performante lorsque le signal de parole est de mauvaise qualité. Dans cette étude, nous analysons les erreurs commises par les systèmes de RAP lorsque la parole transcrite est réverbérée afin de mieux comprendre les raisons de ces erreurs. Notre analyse permet de mettre en valeur les erreurs dues notamment à un mauvais alignement phonétique. Nous avons pu constater que les phonèmes de courte durée sont majoritairement supprimés lors du décodage phonétique. De plus, les phonèmes détectés, qu’ils soient corrects ou pas, ont tendance à avoir la même durée, ce qui est anormal pour certaines classes phonétiques comme les voyelles courtes ou les plosives. Nous avons aussi analysé les principales confusions entre les différentes classes phonétiques. Finalement, nous avons pu montrer que les erreurs lors de l’alignement phonétique des systèmes de transcription automatique entraînent beaucoup d’erreurs de détection.
Avec l’essor de l’intelligence artificielle (IA) et l’utilisation croissante des architectures d’apprentissage profond, la question de l’éthique et de la transparence des systèmes d’IA est devenue une préoccupation centrale au sein de la communauté de recherche. Dans cet article, nous proposons une étude sur la représentation du genre dans les ressources de parole disponibles sur la plateforme Open Speech and Language Resource. Un tout premier résultat est la difficulté d’accès aux informations sur le genre des locuteurs. Ensuite, nous montrons que l’équilibre entre les catégories de genre dépend de diverses caractéristiques des corpus (discours élicité ou non, tâche adressée). En nous appuyant sur des travaux antérieurs, nous reprenons quelques principes concernant les métadonnées dans l’optique d’assurer une meilleure transparence des systèmes de parole construits à l’aide de ces corpus.
A conditions égales, les performances actuelles de la reconnaissance vocale pour enfants sont inférieures à celles des systèmes pour adultes. La parole des jeunes enfants est particulièrement difficile à reconnaître, et les données disponibles sont rares. En outre, pour notre application d’assistant de lecture pour les enfants de 5-7 ans, les modèles doivent s’adapter à une lecture lente, des disfluences et du bruit de brouhaha typique d’une classe. Nous comparons ici plusieurs modèles acoustiques pour la reconnaissance de phones sur de la parole lue d’enfant avec des données bruitées et en quantité limitée. Nous montrons que faire du Transfer Learning avec des modèles entraînés sur la parole d’adulte et trois heures de parole d’enfant améliore le taux d’erreur au niveau du phone (PER) de 7,6% relatifs, par rapport à un modèle enfant. La normalisation de la longueur du conduit vocal sur la parole d’adulte réduit ce taux d’erreur de 5,1% relatifs supplémentaires, atteignant un PER de 37,1%.
Nous avons effectué une classification automatique de 44 locuteurs à partir de réseaux de neurones convolutifs (CNN) sur la base de spectrogrammes à bandes larges calculés sur des séquences de 2 secondes extraites d’un corpus de parole spontanée (NCCFr). Après obtention d’un taux de classification moyen de 93,7 %, les différentes classes phonémiques composant chaque séquence ont été masquées afin de tester leur impact sur le modèle. Les résultats montrent que les voyelles orales influent avant toute autre classe sur le taux de classification, suivies ensuite par les occlusives orales. Ces résultats sont expliqués principalement par la représentation temporelle prédominante des voyelles orales. Une variabilité inter-locuteurs se manifeste par l’existence de locuteurs attracteurs qui attirent un grand nombre de faux positifs et qui ne sont pas sensibles au masquage effectué. Nous mettons en avant dans la discussion des réalisations acoustiques qui pourraient expliquer les spécificités de ces locuteurs.
La perte d’intelligibilité représente une plainte importante des patients atteints de troubles de la parole. Plusieurs batteries de test d’intelligibilité existent mais leurs limitations résident dans la capacité des auditeurs à restaurer les séquences distordues. Nous proposons un nouveau test fondé sur l’utilisation de pseudo-mots en grande quantité afin de complètement neutraliser les effets perceptifs indésirables. Nous avons appliqué ce test à une population de 39 sujets sains et 78 patients post traitement de cancers de la cavité buccale et de l’oropharynx. Chaque locuteur a produit 52 pseudo-mots tirés aléatoirement. 40 auditeurs ont retranscrit ces productions. Les transcriptions orthographiques ont été phonétisées et comparées aux formes phonétiques attendues. Un algorithme fournit un score de déviation phonologique perçue (PPD) fondée sur le nombre de traits différents entre la forme attendue et celle transcrite. Les résultats montrent qu’il existe un seuil PPD de 0.6 traits/phonème au-dessus duquel, la parole produite est dysfonctionnelle. De plus, le score de PPD est bien corrélé au jugement subjectif de la sévérité obtenue auprès d’experts. Ce test semble donc efficace pour mesurer la performance articulatoire des locuteurs.
La recherche d’acteurs vocaux pour les productions audiovisuelles est réalisée par des directeurs artistiques (DA). Les DA sont constamment à la recherche de nouveaux talents vocaux, mais ne peuvent effectuer des auditions à grande échelle. Les outils automatiques capables de suggérer des voix présentent alors un grand intérêt pour l’industrie audiovisuelle. Dans les travaux précédents, nous avons montré l’existence d’informations acoustiques permettant de reproduire des choix du DA. Dans cet article, nous proposons une approche à base de réseaux de neurones pour construire une représentation adaptée aux personnages/rôles visés, appelée p-vecteur. Nous proposons ensuite de tirer parti de données externes pour la représentation de voix, proches de celles d’origine, au moyen de méthodes de distillation de la connaissance. Les expériences menées sur des extraits de voix de jeux vidéo montrent une amélioration significative de l’approche p-vecteur, avec distillation de la connaissance, par rapport à une représentation x-vecteur, état-de-l’art en reconnaissance du locuteur.
L’exploration automatisée de grands corpus permet d’analyser plus finement la relation entre motifs de variation phonétique synchronique et changements diachroniques : les erreurs dans les transcriptions automatiques sont riches d’enseignements sur la variation contextuelle en parole continue et sur les possibles mutations systémiques sur le point d’apparaître. Dès lors, il est intéressant de se pencher sur des phénomènes phonologiques largement attestés dans les langues en diachronie comme en synchronie pour établir leur émergence ou non dans des langues qui n’y sont pas encore sujettes. La présente étude propose donc d’utiliser l’alignement forcé avec variantes de prononciation pour observer les alternances de voisement en coda finale de mot dans deux langues romanes : le français et le roumain. Il sera mis en évidence, notamment, que voisement et dévoisement non-canoniques des codas françaises comme roumaines ne sont pas le fruit du hasard mais bien des instances de dévoisement final et d’assimilation régressive de trait laryngal, qu’il s’agisse de voisement ou de non-voisement.
Cet article présente une étude concernant l’apport du traitement automatique de la parole dans le cadre du diagnostic différentiel entre la maladie de Parkinson et l’AMS (Atrophie Multi-Systématisée). Nous proposons des outils de reconnaissance automatique de la parole pour évaluer le potentiel d’indicateurs de la parole dysarthrique caractérisant ces deux pathologies. Dans ce cadre, un corpus de parole pathologique (projet ANR Voice4PD-MSA) a été enregistré au sein des Centres Hospitaliers Universitaires (CHU) de Toulouse et Bordeaux. Les locuteurs sont des patients atteints de stades précoces de la maladie de Parkinson et d’AMS ainsi que des locuteurs témoins. Des mesures automatiques caractérisant la qualité de la reconnaissance automatique de la parole ainsi que la prosodie des patients ont montré un intérêt pour la caractérisation des pathologies étudiées et peuvent être considérées comme un outil potentiel pour l’aide à leur diagnostic différentiel.
Les études portant sur l’effet de la situation de communication sur la variation vocalique, notamment celles de Bradlow (2003) ou Scarborough (2007, 2013) ont démontré une adaptation du degré d’hyper-hypo articulation à l’identité de l’interlocuteur, avec par exemple une plus forte hypoarticulation (Lindblom, 1990) lorsque l’on s’adresse à un ami que lorsque l’on s’adresse à étranger. Dans cette étude, nous adaptons le protocole Diapix (Baker et Hazan, 2011) de façon à explorer la variation vocalique dans la parole dirigée à un.e conjoint.e, un expérimentateur de la même communauté linguistique, une expérimentatrice d’une autre communauté, ou soi-même. L’analyse préliminaire des productions de deux couples montre d’ores et déjà une influence de l’identité de l’interlocuteur, avec des voyelles plus courtes et plus proches du centroïde du système lors des tâches en couple que lors des tâches avec les enquêteurs ou avec soi-même.
Le français québécois possède trois voyelles hautes tendues (/i, y, u/), et trois relâchées ([ɪ, ʏ, ʊ]), les relâchées étant décrites comme des allophones des tendues produits en syllabe fermée par une consonne non allongeante (Walker, 1984 ; Dumas, 1987 ; entre autres). Cependant Côté (2012) pose l’hypothèse que ce relâchement pourrait survenir dans des troncations finissant par une consonne allongeante (Troncation(_R)). Dans cette étude pilote, nous explorons cette hypothèse. A travers de courts textes (lus par deux locuteurs natifs) nous avons induit ces voyelles en Troncation(_R) ainsi que dans des positions formant des paire minimales (PaireMinimale(_R) / semi-minimales (finissant par une consonne non allongeante - PaireMinimale(_K)) avec les Troncation(_R). Les premières analyses temporelles (ANOVAs) montrent des /i, y, u/ plus courts en Troncation(_R) qu’en PaireMinimale(_R), et une analyse qualitative permet d’observer des variations spectrales entre Troncation(_R), PaireMinimale(_R) et PaireMinimale(_K), notamment à travers les moyennes de F1 et F2 (Hz).
Objet : Notre recherche examine l’effet du Lee Silverman Voice Treatment (LSVT LOUD®) sur l’aire et la position de l’espace vocalique, la fréquence fondamentale (f0), les paramètres de qualité de voix, le débit de parole, le temps maximum phonatoire (TMP) et le ressenti de handicap vocal chez des patients francophones atteints de la maladie de Parkinson. Méthode : Un même protocole a été proposé en prétest et post-test à 12 patients parkinsoniens. Résultats : En post-test, nous observons une descente significative de l’espace vocalique, une différence de f0 entre la parole lue et la parole spontanée, une amélioration significative des paramètres de qualité de voix (jitter, shimmer, HNR) et du ressenti de handicap vocal. Le débit de parole des patients est maintenu, le TMP subit un effet de l’exercice.
Ce papier présente une étude des caractéristiques prosodiques de marqueurs discursifs en fonction de leur sens pragmatique. L’étude est menée sur trois marqueurs discursifs français (alors, bon, donc) et trois marqueurs anglais (now, so, well) afin de comparer leurs caractéristiques prosodiques dans ces deux langues. Plusieurs paramètres prosodiques ont été calculés sur les marqueurs discursifs, et analysés selon les fonctions pragmatiques de ceux-ci. L’analyse a été effectuée sur plusieurs centaines d’occurrences de marqueurs discursifs extraits de corpus oraux français et anglais. Les résultats montrent que certaines fonctions pragmatiques des marqueurs discursifs amènent leurs propres caractéristiques prosodiques au niveau des pauses et des mouvements de la fréquence fondamentale. On observe également que les fonctions pragmatiques similaires partagent fréquemment des caractéristiques prosodiques similaires à travers les deux langues.
À partir d’un corpus vidéo de conversation spontanée en anglais britannique, cette étude a pour but de déterminer si deux différents types syntaxiques de constructions subordonnées expriment la même absence de proéminence, dans le cadre d’une analyse multimodale. En syntaxe, les subordonnées sont décrites comme des structures dépendantes qui précisent l’information de premier plan dans le discours. Alors que de nombreux travaux étudient leurs caractéristiques verbales, peu d’études s’attachent à décrire l’articulation entre les différentes modalités communicatives lors de leur production, et à fournir une vision plus nuancée de leur apport informationnel. Nous prenons en compte un ensemble de variables appartenant à plusieurs modalités, considérées comme des facteurs de proéminence. Notre étude montre que les subordonnées ne fournissent pas les mêmes types de proéminence en fonction de leur type syntaxique, et que leur création s’appuie majoritairement sur des indices de nature intonative et gestuelle plutôt que syntaxique.
Les effets de contexte dans la perception de la parole reposent aussi bien sur des sources acoustiques que sémantiques. Le contexte acoustique fournit des informations essentielles pour l’adaptation au locuteur et aux variations dialectales. En parallèle, le contexte sémantique contribue à prédire un ensemble de mots éligibles pour une interprétation licite des énoncés. Afin d’étudier plus précisément les interactions entre ces effets de contexte, nous avons créé une base de données de phrases courtes conçues pour observer ces phénomènes dans des protocoles expérimentaux. Cette base de données est constituée de 28 triplets de phrases porteuses terminées par des cibles de paires minimales de mots CV ou CVC, autour de voyelles acoustiquement proches associées à 4 contrastes vocaliques. Afin d’évaluer la validité des 3 catégories de contexte sémantique considérées, des mesures de similarité sémantique et de fréquence lexicale ont été réalisées à partir de différents corpus de langue française.
Malgré les avancés spectaculaires ces dernières années, les systèmes de Reconnaissance Automatique de Parole (RAP) commettent encore des erreurs, surtout dans des environnements bruités. Pour améliorer la RAP, nous proposons de se diriger vers une contextualisation d’un système RAP, car les informations sémantiques sont importantes pour la performance de la RAP. Les systèmes RAP actuels ne prennent en compte principalement que les informations lexicales et syntaxiques. Pour modéliser les informations sémantiques, nous proposons de détecter les mots de la phrase traitée qui pourraient avoir été mal reconnus et de proposer des mots correspondant mieux au contexte. Cette analyse sémantique permettra de réévaluer les N meilleures hypothèses de transcription (N-best). Nous utilisons les embeddings Word2Vec et BERT. Nous avons évalué notre méthodologie sur le corpus des conférences TED (TED-LIUM). Les résultats montrent une amélioration significative du taux d’erreur mots en utilisant la méthodologie proposée.
Des études antérieures ont montré que la production de la parole dépend des conditions du feedback auditif. Cette étude vise à investiguer les interactions entre les effets de trois facteurs différents sur la production de la parole : 1) le retard du feedback auditif (DAF), 2) le décalage de la f0 du feedback auditif et 3) la complexité des syllabes qui composent les énoncés. Nous avons manipulé le feedback auditif de 20 locutrices francophones pendant la répétition de trois phrases. Nous avons pu observer que plus de la moitié des participantes ont tendance à suivre la direction du décalage de la f0 du feedback auditif en recevant en continu cette perturbation. La position syllabique des voyelles est un facteur important affectant l’effet des perturbations du feedback auditif. Cependant les analyses décrites dans cette étude ne montrent pas un effet interactif du DAF et du décalage de la f0 sur la production de la parole.
Nous présentons un nouveau corpus, nommé AlloSat, composé de conversations en français extraites de centre d’appels, annotées de façon continue en frustration et satisfaction. Dans le contexte des centres d’appels, une conversation vise généralement à résoudre la demande de l’appelant. Ce corpus a été mis en place afin de développer de nouveaux systèmes capables de modéliser l’aspect continu de l’information sémantique et para-linguistique au niveau conversationnel. Nous nous concentrons sur le niveau para-linguistique, plus précisément sur l’expression des émotions. À notre connaissance, la plupart des corpus émotionnels contiennent des annotations en catégories discrètes ou dans des dimensions continues telles que l’activation ou la valence. Nous supposons que ces dimensions ne sont pas suffisamment liées à notre contexte. Pour résoudre ce problème, nous proposons un corpus permettant une connaissance en temps réel de l’axe frustration/satisfaction. AlloSat regroupe 303 conversations pour un total d’environ 37 heures d’audio, toutes enregistrées dans des environnements réels, collectées par Allo-Media (une société spécialisée dans l’analyse automatique d’appels). Les premières expériences de classification montrent que l’évolution de l’axe frustration/satisfaction peut être prédite automatiquement par conversation.
La déficience auditive entraîne un retard sur le développement de la parole chez l’enfant sourd. La Langue française Parlée Complétée (LfPC), par le biais de 5 positions autour du visage et 8 configurations de la main, permet de rendre visibles tous les sons de la langue, sans confusion labiale. L’utilisation de ce système facilite la perception de parole et permet à l’enfant d’élaborer des représentations phonologiques stables. Cette étude s’intéresse à l’apport de la LfPC sur la production de parole chez l’enfant porteur d’implant cochléaire. A partir d’une tâche de dénomination d’images, nous observons que l’exposition à la LfPC (en perception) améliore significativement la production de parole chez l’enfant porteur d’implant cochléaire.
La détection automatique de la somnolence peut aider le suivi de patients souffrant de maladies neuro-psychiatriques chroniques. Des recherches précédentes ont déjà montré que cela est possible en utilisant des enregistrements vocaux. Dans cet article, nous proposons d’étudier les erreurs de lecture effectuées par des patients souffrant de Somnolence Diurne Excessive (SDE) sur le corpus TILE, enregistré à l’hôpital de Bordeaux. Avec des orthophonistes, nous avons défini et compté les erreurs de lecture des patients et les avons confrontées aux différentes mesures de somnolence du corpus. Nous montrons ici que relever ces erreurs peut être utile pour élaborer des marqueurs robustes de la somnolence objective mais aussi pour définir des critères d’exclusion des locuteurs n’ayant pas un niveau de lecture suffisant.
Le suivi des patients souffrant de maladies neuro-psychiatriques chroniques peut être amélioré grâce à la détection de la somnolence dans la voix. Cet article s’inspire des systèmes état-de-l’art en détection de la somnolence dans la voix pour le cas particulier de patients atteints de Somnolence Diurne Excessive (SDE). Pour cela, nous basons notre étude sur un nouveau corpus, le corpus TILE. Il diffère des autres corpora existants par le fait que les sujets enregistrés sont des patients souffrant de SDE et que leur niveau de somnolence est mesuré de manière subjective mais aussi objective. Le système proposé permet détecter la somnolence objective grâce à des paramètres vocaux simples et explicables à des non spécialistes.
Cet article a pour objectif i) de mettre en évidence le besoin d’une orientation absolue en plus d’une orientation relative afin de décrire la phonologie segmentale des langues des signes, et ii) d’améliorer les modèles actuels et leur permettre de rendre compte de la phonologie de signes autrement problématiques. Dans cette étude sur la langue des signes française, nous nous concentrons sur une catégorie de signes en particulier : les signes à deux mains produits sur le corps du signeur (contact avec une partie du corps autre que la main non-dominante). Nous montrons que l’orientation relative ne permet pas une description adéquate de ces signes lorsque l’orientation des deux mains doit être spécifiée, puisqu’elle peut capturer soit l’orientation entre les deux mains, soit l’orientation vis à vis du corps, mais pas les deux. Afin de modéliser l’orientation de ces signes dans un cadre formel, nous proposons l’implémentation de plans secondaires. Tandis que cette implémentation requiert des ajustements minimes dans les modèles formels actuels, son impact quant à la théorie générale de la phonologie segmentale des signes est, elle, importante. Les plans secondaires imposent des restrictions géométriques et forcent l’orientation absolue ; le concept d’orientation comme simple classe phonémique relationnelle n’est donc plus suffisant (du moins pour ces signes).
L’objectif de ce travail est de quantifier les positions articulatoires théoriques lors de la production de la parole spontanée dans trois langues. Chaque langue dispose d’un inventaire phonologique spécifique. Mais ces spécificités ne sont pas représentées telles quelles en parole spontanée dans laquelle les phonèmes n’ont pas tous la même fréquence d’apparition. Nous avons comparé trois langues (polonais, français et anglais américain) présentant des différences notables dans leur inventaire phonologique. Des positions articulatoires ont été calculées sur la base des fréquences des phonèmes dans chacune des trois langues dans des corpus de parole spontanée. Etonnamment, les résultats tendent à montrer que les positions articulatoires majoritaires sont très similaires dans les trois langues. Il semble ainsi que l’usage de la parole spontanée, et donc la distribution des phonèmes dans les langues, gomme les disparités des systèmes phonologiques pour tendre vers une mobilisation articulatoire commune. Des investigations plus approfondies devront vérifier cette observation.
Cette étude s’intéresse à la reconnaissance du trait de voisement en parole chuchotée. Nos travaux antérieurs (Dufour & Meynadier 2019) montrent une reconnaissance plus tardive du trait [+voisé] reposant sur un traitement probablement pré-lexical d’informations acoustiques, autres que la vibration laryngée, extraites du signal chuchoté et utilisées dans l’accès lexical. Via une tâche d’identification en perception catégorielle, cette étude révèle que la durée conditionne la perception du voisement des fricatives chuchotées : plus /ʃ/ est long, plus il est perçu [-voisé] ; plus /ʒ/ est bref, plus il est identifié [+voisé]. Cet effet de durée est modulé par le trait sous-jacent de voisement et la position dans le (non)mot. La fricative [+voisé] en position finale montre une frontière perceptive particulièrement décalée vers des durées beaucoup plus longues que les autres.
Les systèmes de reconnaissance automatique de la parole atteignent désormais des degrés de précision élevés sur la base d’un corpus d’entraînement limité à deux ou trois heures d’enregistrements transcrits (pour un système mono-locuteur). Au-delà de l’intérêt pratique que présentent ces avancées technologiques pour les tâches de documentation de langues rares et en danger, se pose la question de leur apport pour la réflexion du phonéticien/phonologue. En effet, le modèle acoustique prend en entrée des transcriptions qui reposent sur un ensemble d’hypothèses plus ou moins explicites. Le modèle acoustique, décalqué (par des méthodes statistiques) de l’écrit du linguiste, peut-il être interrogé par ce dernier, en un jeu de miroir ? Notre étude s’appuie sur des exemples d’une langue « rare » de la famille sino-tibétaine, le na (mosuo), pour illustrer la façon dont l’analyse d’erreurs permet une confrontation renouvelée avec le signal acoustique.
Dans cette étude, nous avons examiné la capacité des auditeurs francophones natifs à percevoir la variation accentuelle en manipulant l’oreille de présentation des mots. Deux contrastes accentuels ont été testés : un contraste natif (/balɔ̃/-/baˈlɔ̃/) et un contraste non-natif (/ˈbalɔ̃/-/baˈlɔ̃/). Dans une tâche ABX, les participants entendaient trois mots produits par trois locuteurs différents et devaient déterminer si X était identique à A ou à B. Les stimuli A et B différaient sur l’accent (/ˈbalɔ̃/-/baˈlɔ̃/), sur un phonème (/baˈlɔ/-/baˈlɔ̃/) ou sur l’accent et un phonème (/ˈbalɔ/-/baˈlɔ̃/). Les résultats ont montré des difficultés persistantes pour le contraste non-natif quelle que soit l’oreille de présentation. Par contre, pour le contraste natif, des meilleures performances ont été observées lorsque les mots étaient présentés dans l’oreille gauche. D’une façon générale, notre étude montre que la variation accentuelle présente au niveau du mot est traitée par les auditeurs francophones natifs comme de la variation de surface.
Les consonnes plosives sont parmi les phonèmes les plus représentés dans l’inventaire phonologique des langues du monde. Outre leur rôle linguistique, elles remplissent également un rôle paralinguistique dans la pratique instrumentale et vocale, notamment au sein de la pratique vocale du Human Beatbox. Cet article apporte un éclairage sur les similitudes et différences dans la dynamique articulatoire de trois consonnes plosives du français et des sons percussifs correspondants du Human Beatbox. Si ces deux modes de production vocale ont une racine commune, une dynamique articulatoire différente est mise en évidence pour le Human Beatbox. Nous retrouvons des indices d’un mécanisme éjectif, qui a un impact sur la dynamique linguale.
Cette étude porte sur les productions de locutrices et locuteurs bilingues anglais/français lors d‟une tâche de lecture. La fréquence des formants vocaliques (F1, F2, F3) et la différence d‟intensité H1H2 ont été mesurées dans les deux langues. Les résultats indiquent un effet significatif des facteurs langue et genre sur l’ensemble de ces paramètres. L‟analyse des formants montre que les locutrices présentent globalement des valeurs plus élevées que les locuteurs, avec néanmoins des variations inter-langues. Aucune différence inter-genres significative n‟a été trouvée sur le F2 du [u] en français, contrairement au [u:] anglais. La différence H1-H2 est significativement plus élevée chez les femmes dans les deux langues, indiquant l‟utilisation d‟une voix plus breathy. Les locutrices présentent une différence H1-H2 moins importante lors de l‟emploi du français, quand l‟inverse est observé chez les hommes. Ces données suggèrent l‟existence de normes vocales dépendantes du genre et de la langue parlée, auxquelles les locuteur·rices bilingues semblent s‟adapter.
Nous étudions les corrélats acoustiques et perceptifs de la personnalité à travers la voix dans une population de dysphoniques légères (G1 à G2) et de locutrices témoins (G0). 40 auditeurs naïfs ont évalué les voix de 61 femmes. Des échelles sémantiques différentielles ont été utilisées pour la cotation de la sévérité du trouble vocal et des traits de personnalité. Les 5 échelles sont : Joyeuse/Triste, Sympathique/Désagréable, Dynamique/Molle, Confiante/Hésitante, Aucun trouble vocal/Trouble vocal sévère. Le jugement de la pathologie vocale par les naïfs est principalement lié à l’évaluation experte du grade de dysphonie faite à partir du GRBAS. Des traits de personnalité plus négatifs sont attribués aux locutrices perçues comme plus dysphoniques. Certains facteurs acoustiques (f0, débit syllabique, HNR et ZCR) semblent influencer les auditeurs : les voix plus aigües, plus rauques et avec un débit rapide sont associées à un jugement plus positif.
Cette contribution vise à observer l’émergence du contraste de lieu d’articulation entre les fricatives sibilantes sourdes /s/ - /ʃ/ en français chez des bilingues simultanés d’âge préscolaire exposés à l’une des deux combinaisons linguistiques suivantes : français-italien et français-arabe. Les productions orales des enfants ont été recueillies longitudinalement via une tâche de dén omination originale en français. Les deux fricatives ont fait l’objet d’analyses basées sur des données acoustiques , et plus précisément les premier et troisième moments spectraux, et sur les transcriptions phonétiques des productions de parole. L’impact du développement lexical sur la production des deux fricatives a été investigué. Les résultats suggèrent, d’une part, un contraste émergeant plus précocement chez les bilingues français-arabe et, d’autre part, une acquisition plus précoce du /s/ pour l’ensemble des participants.
Dans l’apprentissage de /y/ français par des enfants italophones débutants de 6 ans, les comptines sont-elles plus efficaces qu’un apprentissage phonétique les utilisant sans leur rythme et leur mélodies propres ? Deux classes de première année élémentaire d’une école publique milanaise ont suivi douze séances d’apprentissage de la prononciation du Français Langue Etrangère, avec comptines originales pour le Groupe Expérimental (GE) mais juste parlées pour le Groupe Contrôle (GC). L’apprentissage de /y/, durant 4 séances, s’est déroulé avec des tâches de perception, productions corporelle et verbale. Après la troisième séance, 7 enfants du GE et 7 du GC ont été enregistrés sur une comptine, perceptivement évaluée par 4 auditeurs experts et 4 auditeurs étudiants, français natifs : plus d’occurrences sont perçues comme correctes pour le GE chez les auditeurs experts. Pour le GE, /y/ non correctement produit était principalement remplacé par un phonème également antérieur (/i/), contrairement au GC (/u/).
Aujourd’hui les systèmes intelligents obtiennent d’excellentes performances dans de nombreux domaines lorsqu’ils sont entraînés par des experts en apprentissage automatique. Lorsque ces systèmes sont mis en production, leurs performances se dégradent au cours du temps du fait de l’évolution de leur environnement réel. Une adaptation de leur modèle par des experts en apprentissage automatique est possible mais très coûteuse alors que les sociétés utilisant ces systèmes disposent d’experts du domaine qui pourraient accompagner ces systèmes dans un apprentissage tout au long de la vie. Dans cet article nous proposons un cadre d’évaluation générique pour des systèmes apprenant tout au long de la vie (SATLV). Nous proposons d’évaluer l’apprentissage assisté par l’humain (actif ou interactif) et l’apprentissage au cours du temps.
La voix actée représente un défi majeur pour les futures interfaces vocales avec un potentiel d’application extrêmement important pour la transformation numérique des secteurs de la culture et de la communication, comme la production ou la post-production de voix pour les séries ou le cinéma. Un aspect central de la voix actée repose sur la notion d’interprétation, un aspect peu étudié dans la communauté scientifique de la parole. Cet article propose un état des lieux et une réflexion sur les défis scientifiques et les applications technologiques de la voix actée : à la croisée de l’acoustique, de la linguistique, de la culture, et de l’apprentissage machine. Une analyse préliminaire des pratiques permet de rendre compte de la diversité de l’écosystème des “métiers de la voix” et de pointer les fonctions et les conventions qui s’y rattachent. Nous nous intéresserons ensuite à la pratique particulière du doublage de voix, en faisant ressortir ses enjeux et problématiques spécifiques puis en présentant des solutions proposées pour modéliser les codes expressifs de la voix d’un acteur ou les choix d’un opérateur pour le doublage.
La compréhensibilité de documents audiovisuels peut dépendre de facteurs propres à l’auditeur/spectateur (ex. langue maternelle, performances cognitives) et de facteurs propres aux contenus des documents (ex. complexité linguistique, intelligibilité de la parole). Dans ces travaux, nous étudions les effets de facteurs propres aux contenus sur la compréhensibilité de 55 dialogues extraits de films, présentés à 15 experts (enseignants de français langue étrangère) selon cinq modalités différentes (transcription, transcription + audio, audio, audio + vidéo, transcription + audio + vidéo). Les experts ont évalué les dialogues en termes de compréhensibilité générale, de complexité du vocabulaire, de complexité grammaticale, et d’intelligibilité de la parole. L’analyse de leurs évaluations montre que (1) la complexité du vocabulaire, la complexité grammaticale, et l’intelligibilité de la parole sont significativement corrélées à la compréhensibilité générale, et (2) que les évaluations de compréhensibilité générale ont tendance à être plus élevées lors de présentations multimodales.
La perte d’intelligibilité représente une plainte importante des patients traités pour un cancer de la cavité buccale ou de l’oropharynx. L’évaluation de l’intelligibilité est essentielle dans le parcours de soin, mais les tests existants ne sont pas satisfaisants. Basés sur la perception de listes de mots par des auditeurs entraînés à restaurer des séquences sonores dégradées, ils conduisent souvent à une sousévaluation des déficits. Nous avons proposé une nouvelle tâche d’évaluation de l’intelligibilité, la tâche de décodage acoustico phonétique (DAP), basée sur l’utilisation de pseudo-mots (Astésano et al., 2018; Ghio et al., 2018; Ghio et al., soumis, Lalain et al., sous presse). Dans cette étude, nous évaluons la capacité de la tâche DAP à neutraliser les effets de restauration lexicale et d’expertise auditive clinique. Les résultats montrent que contrairement à une évaluation de l’intelligibilité basée sur des mots, une évaluation basée sur des pseudo-mots permet d’obtenir des scores de Déviation Phonologique Perçue (DPP) stables au cours du temps quel que soit le degré d’expertise des auditeurs, naïfs ou cliniciens.
Cette étude s’intéresse aux indices acoustiques qui concourent à distinguer les fricatives non voisées /f s ʃ/ et voisées /v z ʒ/ en position de finale absolue en français du Québec. La durée de la consonne elle-même, celle de la voyelle accentuée précédente et le taux de voisement consonantique sont les indices acoustiques examinés. La durée intrinsèque des voyelles, caractéristique importante de la variété à l’étude, est prise en compte lors de l’analyse des résultats, qui indiquent que les deux groupes de consonnes se distinguent en tous points. Les consonnes voisées ont une durée plus courte, présentent un taux de voisement supérieur quoique moindre que celui rapporté dans la littérature antérieure, et allongent les segments vocaliques précédents. Ce dernier phénomène se produit même lorsque la voyelle est intrinsèquement longue, révélant la robustesse de l’effet allongeant des consonnes voisées et l’extensibilité de la durée vocalique en français québécois.
La maladie de Parkinson est une maladie neurodégénérative qui affecte le système neuro-moteur. Une grande variété de troubles de la parole, généralement regroupés sous les termes de dysarthrie hypokinétique, peuvent apparaitre. Dans cette contribution, nous présentons les résultats d’une étude acoustique comparative de la production de voyelles par 63 locuteurs MP dysarthriques et non dysarthriques, avec 35 locuteurs sains. Notre objectif est d’étudier la production de voyelles isolées afin de répondre à la question : l’imprécision dans la production des voyelles peut-elle être considérée comme un marqueur infraclinique de la dysarthrie ?
L’objectif est l’étude des causes des dispériodicités des voix du type 1 qui sont pseudo-périodiques et monophoniques. Un modèle qui explique quantitativement les perturbations des durées de cycles glottiques fait appel aux fluctuations de la tension du muscle vocal. Or, ces fluctuations n’expliquent pas l’enrouement qui peut faire suite à une charge vocale ou une laryngite légère, par exemple. C’est pourquoi, nous discutons plusieurs modèles qui montrent qu’une redistribution des amplitudes vibratoires entre le corps et la couverture du pli module les perturbations qui trouvent leur origine au niveau du muscle vocal. Des simulations à l’aide d’un modèle corps-couverture suggèrent ainsi que les perturbations des durées des cycles glottiques augmentent avec une redistribution des amplitudes vibratoires de la couverture vers le muscle suite à une redistribution des masses vibrantes du muscle vers la couverture.
Cette étude s’intéresse à la « voyelle apicale », notée /z/, telle qu’elle est attestée en chinois de Jixi. L’objectif est de déterminer sa nature phonétique sur la base de données acoustiques et articulatoires. Phonologiquement, ce segment est un phonème distinct qui s’oppose à /i/ dont il est issu diachroniquement. Il est exclusivement attesté en position noyau de syllabe où il constitue une unité porteuse de ton. Sur le plan articulatoire, les données ultrasoniques démontrent que, quand il est précédé de consonnes bilabiales /p, ph, m/, il présente un geste articulatoire semblable à celui de la fricative alvéolaire /s/. Ce geste est réalisé de manière anticipatoire durant la tenue des bilabiales. Une des conséquences de cette réalisation est que le relâchement de /ph/ présente les mêmes caractéristiques acoustiques que le bruit de friction de la fricative /s/, comme l’atteste la ressemblance de leur centre de gravité. Ces résultats montrent que la voyelle apicale en chinois de Jixi est mieux définie, au moins du point de vue phonétique, comme une fricative alvéolaire.
Le symbolisme phonétique suggère un lien naturel entre les sons et la signification d’un mot. Les prénoms constituent d’excellents candidats afin d’étudier ces relations selon les prédictions de la théorie « code-fréquence », selon laquelle les sons de basses fréquences sont perceptivement associés à une large corpulence et par extension à la masculinité, tandis que les sons de hautes fréquences sont associés à la petitesse et à la féminité. En analysant les prénoms français attribués entre 1900 et 2009, nous avons confirmé ces prédictions en observant une différence significative de la qualité de la voyelle sur la syllabe perceptivement proéminente : les prénoms masculins exhibent plus fréquemment des voyelles de basses fréquences (e.g. /o/) tandis que les prénoms féminins attestent plus souvent des voyelles de hautes fréquences (e.g. /i/).
Cette étude propose de caractériser le non relâchement des plosives finales /p, t, k/ de deux langues d’Asie, tonale (vietnamien) et non tonale (coréen), du point de vue aérodynamique et glottographique. Le comportement glottique (ouverture et fermeture de la glotte, position verticale du larynx) a été examiné en synchronisation avec les valeurs de débits d’air (oral et nasal) pendant les phases de la réalisation consonantique. Les résultats mettent en évidence (1) l’absence de relâchement nasal après l’occlusion de la plosive finale pouvant entraîner une baisse de la pression intraorale, (2) que le larynx s’abaisse systématiquement durant la tenue de la consonne. Cette stratégie de réalisation va dans le sens de notre hypothèse selon laquelle les plosives non relâchées sont produites avec un mécanisme permettant de diminuer la pression intraorale de manière à minimiser le coût articulatoire de la tenue de la closion avec, pour conséquence acoustique, l’absence de burst.
Cette étude explore les capacités de patients aphasiques, présentant des troubles phonologicophonétiques, notamment des difficultés de coordination temporelle entre les articulateurs, à acquérir une variante phonétique, non familière dans leur langue, nécessitant l’adoption de nouveaux schèmes articulatoires. 4 patients aphasiques, de langue maternelle française, ont participé à la présente étude, ainsi que 36 participants contrôles. Au cours du paradigme d’apprentissage, la tâche principale consistait à répéter des non-mots C[t]V[a], dont le VOT est de 60ms et ce à 3 reprises : avant toute intervention, puis après un « entraînement » en perceptiontâche de discrimination de 5 non-mots CV dont le VOT variait entre 20 et 100ms, enfin après un « entraînement » en production-tâche de répétition de ces 5 non-mots. Les participants étaient par ailleurs amenés à effectuer une tâche de calibration, destinée à évaluer leur VOT en français. Les patients présentent une plus grande variabilité des durées de VOT. Trois patients sur quatre montrent des valeurs de VOT plus longues entre la calibration et les tâches de répétition de VOT60ms indiquant des capacités d’apprentissage phonétique. Les liens entre ces observations et les profils des patients, ainsi que les implications pour la rééducation du langage, seront discutés.
L’étude porte sur les configurations de la qualité vocale de huit apprenants sinophones qui parlent en mandarin dans une tâche de production de La bise et le soleil en L1 chinois et L2 français. Une comparaison est faite avec la lecture en français de quatre locuteurs natifs du français. Les corpus chinois/français sont utilisés pour recueillir les impressions d’auditeurs français sur la qualitévocale des apprenants sinophones. Des enregistrements vidéo ont étéégalement réalisés en L1 chinois et L2 français par les mêmes apprenants. Les données subjectives récoltées conformément à la littérature indiquent des variations de configurations de la qualitévocale dans les deux langues. Les mesures acoustiques, Fo moyenne du texte lu et Fo moyenne de la voyelle [a], présentent dans les deux langues des variations ordonnées intra- et interindividuelles, entre lecture en L1 chinois et lecture en L2 français, et entre locuteurs L1 français et apprenants L2 français.
Cette étude vise à proposer une méthode adaptée à l’étude de divers phénomènes de variation dans les grands corpus utilisant l’alignement automatique de la parole. Cette méthode est appliquée pour étudier la réduction temporelle en français spontané. Nous proposons de qualifier la réduction temporelle comme la réalisation de suites de segments courts consécutifs. Environ 14% du corpus est considéré comme réduit. Les résultats de l’alignement montrent que ces zones impliquent le plus souvent plus d’un mot (81%), et que sinon, la position interne du mot est la plus concernée. Parmi les exemples de suites de mots les plus réduits, on trouve des locutions utilisées comme des marqueurs discursifs.
Les caractéristiques temporelles et spectrales du schwa transitionnel en tachlhit sont analysées dans cette étude. Nous avons examiné 18 items du type C1C2VC afin d’explorer comment la durée et la qualité de ce vocoïde sont affectées par le contexte consonantique et vocalique avoisinant. Les résultats obtenus à partir de la réalisation de 7 locuteurs natifs montrent que la durée du schwa est beaucoup plus court comparées aux voyelles pleines. Alors que cette durée varie peu selon le contexte, la qualité du schwa peut être affectée par une combinaison de facteurs incluant la nature de la voyelle qui suit, ainsi que le lieu et le mode d’articulation des consonnes adjacentes. Ces variations sont observées pour F1, F2 et F3, et la plupart d’entre elles peuvent être prédites selon que la consonne qui suit est une occlusive emphatique ou une sonante battue.
Cette étude a pour but d’examiner l’effet du sexe et de la langue sur la production de la parole lue des locuteurs coréens et français. Dix paramètres acoustiques sont utilisés pour caractériser trois grandes dimensions : la voix (moyenne et écart-type de la F0, pente de LTAS et CPPs) ; les résonances du conduit vocal (F1 et F2 de /a/ et /i/) ; la gestion temporelle (débit de parole et articulatoire). Comme attendu, on observe une interaction entre sexe et langue sur la plupart des paramètres acoustiques supposés différencier les voix de femmes de celles d’hommes. Seuls le F1 de /i/ et la gestion temporelle ne montrent pas d’interaction entre sexe et langue. Ces résultats suggèrent que la différenciation de la voix entre sexes dépend de la langue parlée.
Cette étude porte sur les caractéristiques spatio-temporelles de la production de séquences VCV par des patients glossectomisés suite à un cancer endo-buccal. Plus précisément, il s’agit d’analyser les différents paramètres acoustiques (V1, VOT, VTT, silence, occlusion, V2), cette analyse nous permettra de rendre compte des conséquences d’une glossectomie sur le timing des gestes articulatoires (Sock, 1998). Dix patients ont été enregistrés sur plusieurs phases pré- et postchirurgicales ; il s’agit donc d’une étude longitudinale. Le corpus étudié est composé de huit séquences de type VCV. L’objectif est principalement d’observer à partir du signal acoustique, différents événements acoustiques interprétables directement en termes articulatoires, en tentant ainsi de remonter aux configurations articulatoires. L’analyse statistique a montré des modifications significatives au niveau de la durée pour toutes les variables mesurées lors des phases d’enregistrements post-chirurgicales. En effet, une amélioration dans la production des séquences apparaît progressivement avec le temps et la réhabilitation orthophonique qui se manifeste pour certains patients par un retour aux valeurs initialement relevées lors de la phase pré-chirurgicale.
Dans la présente étude, nous rapportons deux expériences visant à explorer les contributions des contextes segmental et syllabique à la perception des tons du mandarin par les apprenants français. Dans la première, des stimuli monosyllabiques produits naturellement, composés de 9 attaques ([ø(zéro), p, t, tʰ, tɕ, ɕ, tʂ, tʂʰ, m]) et 2 rimes ([i, ɑu]), ont été identifiés par 19 apprenants français de mandarin de niveau débutant et 18 auditeurs de langue maternelle mandarin. Dans la deuxième, les stimuli composés de 6 types de syllabes (V, VV, VN, CV, CVV, CVN) ont été catégorisés par deux autres groupes d’auditeurs. Nos résultats montrent que contrairement aux auditeurs natifs, la perception tonale des apprenants français est influencée de manière significative non seulement par les caractéristiques tonales, mais aussi par les attaque-, rime- and syllabe-types. Cela suggère que les études d’acquisition des tons L2 devraient prendre en compte non seulement le système tonal de la L2, mais aussi le système phonologique segmental de la L2.