Journées d'Etudes sur la Parole / Traitement Automatique de la Langue Naturelle / Rencontres des Etudiants Chercheurs en Informatique et Traitement Automatique des Langues (2024)

Volumes

Actes des 35èmes Journées d'Études sur la Parole 63 papers
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position 49 papers
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès 14 papers
Actes de la 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues 8 papers
Actes du Défi Fouille de Textes@TALN 2024 7 papers

bib (full) Actes des 35èmes Journées d'Études sur la Parole

pdf bib abs
Autisme et compliance phonique
Eva Goeseels | Kathy Huet | Myriam Piccaluga | Virginie Roland | Véronique Delvaux

Cet article traite de la flexibilité phonétique, définie comme la capacité d’adapter son comportement de parole aux contraintes internes/externes au locuteur et qui pèsent sur la situation de communication. Les individus avec Trouble du Spectre de l’Autisme (TSA), de par leurs caractéristiques, constituent une population pertinente pour étudier la flexibilité phonétique. Cette étude compare la flexibilité phonétique chez des sujets neurotypiques (NT) et avec TSA francophones via un protocole de compliance phonique, nécessitant de devoir répéter des voyelles synthétiques non présentes dans le répertoire vocalique du français. Trois indices ont été calculés pour caractériser la compliance phonique et les résultats montrent des stratégies différentes dans les groupes NT vs. TSA. L’étude met en lumière la préservation possible des compétences sensori-motrices nécessaires à la flexibilité phonétique chez les personnes atteintes de TSA.

pdf bib abs
Caractérisation acoustique des réalisations approximantes du /v/ intervocalique en français spontané
Suyuan Dong | Nicolas Audibert

Les fricatives /v/ ont tendance à se réaliser comme une variante affaiblie en français spontané. Nous nous sommes appuyés sur les données du corpus NCCFr et avons évalué 5504 occurrences de /v/ intervocalique produites par 10 hommes et 10 femmes, à partir de l’inspection des spectrogrammes. Un ensemble de mesures acoustiques dynamiques ont été relevées sur chaque exemplaire, et comparées entre les deux types de réalisation (fricatives voisées et approximantes) par des modèles GAM pour prendre en compte leur évolution temporelle. Les résultats montrent une prépondérance des réalisations approximantes, également observables en positions accentuées, et indiquent que ces deux types de réalisation divergent tant au niveau temporel que spectral, particulièrement dans les hautes fréquences. La manifestation de cet affaiblissement varie également en fonction des locuteurs. Ces observations permettent de suggérer que le /v/ intervocalique serait sujet à un processus d’affaiblissement en cours, au-delà d’une simple réduction segmentale.

pdf bib abs
Comment l’oreille humaine perçoit-elle la somnolence dans la parole ? Une analyse rétrospective d’études perceptuelles.
Vincent P. Martin | Colleen Beaumard | Jean-Luc Rouas

La somnolence bénéficierait d’être mesurée dans des configurations écologiques, par exemple grâce à des enregistrements de parole. Pour évaluer la faisabilité de sa détection à partir de la parole par l’audition humaine, deux études perceptuelles précédentes ont produit des résultats contradictoires. Une façon de comprendre ce désaccord aurait pu être d’étudier sur quelles caractéristiques de la parole les annotateurs ont basé leur estimation, mais aucune étude n’a collecté cette information.Nous avons donc choisi d’extraire des descripteurs acoustiques des enregistrements annotés, et d’entraîner des modèles d’apprentissage automatique simples et explicables à reproduire l’annotation de chaque annotateur. Ensuite, nous mesurons la contribution de chaque caractéristique à la décision de chaque modèle, et identifions les plus importantes. Nous effectuons ensuite un regroupement hiérarchique pour dessiner les profils des annotateurs, en fonction des caractéristiques sur lesquelles ils s’appuient pour identifier la somnolence.

pdf bib abs
Disfluences en parole continue en français : paramètres prosodiques des répétitions
Ivana Didirková | Yaru Wu | Anne Catherine Simon

Cette étude s’intéresse aux caractéristiques acoustiques des répétitions à l’identique à travers différents genres de parole en français. Le corpus d’étude LOCAS-F inclut 42 échantillons de parole représentant 14 activités de parole (ou genres). Ces échantillons sont caractérisés en fonction du degré de préparation, d’interactivité, etc. Le nombre de fois que les éléments sont répétés ne variepas sensiblement en fonction du degré de préparation ou d’interactivité du discours. Du point de vue des durées, les résultats montrent que la durée totale des répétitions augmente avec le degré de préparation du discours. Cela vaut aussi pour la durée des séquences de répétitions avec les insertions. Du point de vue de la fréquence fondamentale, les écarts mélodiques au début d’une séquence de répétition sont plus étendus dans la parole spontanée (non préparée).

pdf bib abs
Effet de la tâche sur le débit articulatoire d’enfants et adolescents avec et sans trouble du spectre de l’autisme en français
Cwiosna Roques | Fanny Guitart-Ivent | Christelle Dodane | Fabrice Hirsch

Cette étude comparative propose d’observer le débit de parole de 8 enfants de 10 à 16 ans avec un trouble du spectre de l’autisme (TSA), et celui de 8 enfants tout-venants appariés, dans deux activités extraites du module 3 de l’ADOS-2, la première consistant à raconter une histoire à partir d’images puis de la mimer, la seconde, à parler librement sur le thème de l’amitié. Nos résultats montrent que les enfants avec TSA parlent plus lentement que les locuteurs contrôles appariés, dans les deux tâches et qu’ils parlent davantage entre deux pauses en parole libre qu’en description d’histoire.

pdf bib abs
Étude de la qualité vocale dans la parole professionnelle des aides-soignants français
Jean-Luc Rouas | Yaru Wu | Takaaki Shochi

Cet article présente une méthodologie complète pour étudier les attributs vocaux des aides-soignants travaillant dans des maisons de retraite en France. L’objectif était d’analyser les modèles de parole de 20 aides-soignants dans deux établissements distincts. Les aides-soignants ont été équipés de microphones-casque connectés à des smartphones pour garantir une qualité audio optimale. Les données enregistrées comprenaient la lecture de texte, des entretiens informels et des jeux de rôle professionnels avec des patients fictifs. Le traitement des données a été effectué à l’aide d’un système de reconnaissance automatique de la parole de pointe, permettant de générer des séquences de mots ou de phonèmes avec leurs frontières. L’analyse s’est concentrée sur la détection des variations de la qualité vocale dans divers contextes de parole spontanée. L’objectif final est le développement d’outils de formation automatisés pour les aides-soignants, afin de capturer et reproduire leurs caractéristiques vocales uniques, améliorant ainsi leurs capacités professionnelles.

En cancérologie ORL, le lien entre anatomie et déficit de parole est étroit en raison de l’impact de la pathologie et de son traitement sur les structures anatomiques en jeu dans la production de parole. Pourtant, les corrélations entre scores moteurs et évaluation perceptive restent faibles. L’utilisation de systèmes automatiques dédiés à la reconnaissance de phonèmes pourrait permettre d’obtenir de nouveaux résultats. L’objectif est d’étudier les liens entre scores moteurs et production phonémique via un système de reconnaissance automatique de phonèmes appliqué à une tâche de production de pseudo-mots. Après réalisation d’un inventaire phonémique par sujet, le taux d’occlusives reconnues est significativement plus faible en cas d’atteinte des structures. Certains mécanismes de compensation ont également pu être mis en évidence, notamment au niveau de la production de consonnes labiodentales, plus élevée en cas d’atteinte de la langue ou de la mâchoire.

pdf bib abs
Étude en temps réel de la fusion des /a/ ~ /ɑ/ en français depuis 1925
Juliusz Cęcelewski | Cédric Gendrot | Martine Adda-Decker | Philippe Boula de Mareüil

Cette étude explore la variation diachronique de la réalisation des voyelles /a/ ~ /ɑ/ du français en position finale de mot dans la parole déclamatoire/journalistique de 1925 à 2023. Nos données comprennent deux corpus préexistants – le corpus d’archives INA (1940–1997) et le corpus ESTER (2000–2004) – ainsi que deux nouveaux corpus composés d’enregistrements issus des Archives de la Parole d’Hubert Pernot (1925–1929), de Radio France et de YouTube (2020–2023).Nos résultats indiquent une postériorisation du /a/ vers une position plus centrale et, dans une moindre mesure, une antériorisations du /ɑ/, qui ont abouti à la neutralisation et la fusion acoustique des deux phonèmes au cours du XXe siècle. Les résultats sont discutés à la lumière de l’évolution globale du système des voyelles à double timbre en français.

pdf bib abs
Exploration de la représentation multidimensionnelle de paramètres acoustiques unidimensionnels de la parole extraits par des modèles profonds non supervisés.
Maxime Jacquelin | Maëva Garnier | Laurent Girin | Rémy Vincent | Olivier Perrotin

Cet article propose une méthodologie pour interpréter les dimensions de variation de la parole conversationnelle, extraites de façon non-supervisée, et sur des données multilocuteurs, par un algorithme d’apprentisage profond (Auto-Encodeur Variationnel). Par des analyses de corrélation et de similarité cosinus, nous montrons que la distribution de la fréquence fondamentale et de la fréquence centrale des trois premiers formants de l’ensemble d’apprentissage est encodée par une direction dédiée de l’espace latent. Lorsque la distribution est multimodale, les différents modes du paramètre acoustique sont encodés dans des dimensions distinctes. De plus, nous avons identifié les directions expliquant la variation des paramètres au sein de chaque mode, et entre eux.

pdf bib abs
Identification du locuteur : ouvrir la boîte noire
Carole Millot | Cédric Gendrot | Jean-François Bonastre

L’explicabilité des systèmes relevant du deep learning est devenue un enjeu central ces dernières années, dans le droit européen comme le domaine criminalistique. L’approche BA-LR introduit en identification du locuteur un nouveau paradigme de modélisation : elle fait émerger automatiquement les attributs partagés par un groupe de locuteurs et qui sous-entendent la discrimination de ceux-ci. Le score produit est décomposable au niveau des attributs, ce qui augmente significativement l’explicabilité de la méthode. Cette étude propose de compléter la caractérisation des attributs obtenus par le BA-LR, à l’aide de paramètres de qualité de voix. L’analyse suggère que plusieurs attributs utilisent les types de phonation pour regrouper les locuteurs, ceux-ci encodant des informations humainement perceptibles. Cet article pose ainsi des bases pour l’analyse acoustique des attributs, qui permettra à terme d’utiliser le BA-LR dans le cadre du profilage vocal.

pdf bib abs
Les représentations de locuteurs pour prédire l’intelligibilité de la parole lors de conversations médicales
Sebastiao Quintas | Mathieu Balaguer | Julie Mauclair | Virginie Woisard | Julien Pinquier

Dans le contexte des troubles de la parole, l’une des tâches du thérapeute est de définir l’intelligibilité de la parole du patient. Les systèmes automatiques peuvent aider dans cette tâche, mais dans la plupart des cas, ils sont entraînés dans des environnements spécifiques et contrôlés, avec des conditions propres qui ne reflètent pas un environnement médical. Dans cet article, nous développons un système automatique qui prédit l’intelligibilité de la parole à partir de données provennant de patients ayant un cancer de la tête et du cou obtenues dans des conditions cliniques. Ce système repose sur des représentations de locuteurs entraînées selon une méthodologie multi-tâches pour prédire simultanément l’intelligibilité de la parole et la sévérité des troubles de la parole. Il atteint une corrélation allant jusqu’à 0,891 pour une tâche de lecture. De plus, il affiche des résultats prometteurs sur de la parole spontanée, qui est une tâche plus écologique mais sous-étudiée et pourtant essentielle pour un déploiement direct d’un système automatique dans un environnement hospitalier.

pdf bib abs
Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d’abstraction des représentations issues d’un grand modèle de langage
Maxime Fily | Guillaume Wisniewski | Séverine Guillaume | Gilles Adda | Alexis Michaud

Nous explorons les représentations vectorielles de la parole à partir d’un modèle pré-entraîné pour déterminer leur niveau d’abstraction par rapport au signal audio. Nous proposons une nouvelle méthode non-supervisée exploitant des données audio ayant des métadonnées soigneusement organisées pour apporter un éclairage sur les informations présentes dans les représentations. Des tests ABX déterminent si les représentations obtenues via un modèle de parole multilingue encodent une caractéristique donnée. Trois expériences sont présentées, portant sur la qualité acoustique de la pièce, le type de discours, ou le contenu phonétique. Les résultats confirment que les différences au niveau de caractéristiques linguistiques/extra-linguistiques d’enregistrements audio sont reflétées dans les représentations de ceux-ci. Plus la quantité d’audio par vecteur est importante, mieux elle permet de distinguer les caractéristiques extra-linguistiques. Plus elle est faible, et mieux nous pouvons distinguer les informations d’ordre phonétique/segmental. La méthode proposée ouvre de nouvelles pistes pour la recherche et les travaux comparatifs sur les langues peu dotées.

pdf bib abs
Perception et production des clusters en position initiale par des sinophones : le rôle du Principe de Sonorité Séquentielle
Xuejing Chen | Pierre André Hallé | Rachid Ridouane

Dans deux expériences avec des sujets sinophones, nous avons examiné le rôle du Principe de Sonorité Séquentielle (PSS) dans la perception et la production des clusters en position initiale. Dans la première expérience, nous avons évalué la discrimination de contrastes C1C2-C1C2 avec 3 types de profil de sonoritéC1C2 : montant, plateau, descendant. Nos résultats montrent que les C1C2 moins marqués selon le PSS induisent une meilleure discrimination, attribuable à une réparation perceptive moindre pour ce type de séquences. Ces résultats sont en accord avec les résultats de l’expérience d’imitation où la production d’éléments vocaliques est moins fréquente pour les C1C2 moins marqués. L’effet induit par le PSS est plus important en production qu’en perception, suggérant un effet indépendant du PSS en production. Par ailleurs, les propriétés acoustiques des éléments vocaliques produits suggèrent qu’ils sont d’autant plus ciblés que les clusters à imiter sont marqués.

La perte d’intelligibilité constitue une plainte récurrente des patients traités pour un cancer de la cavité buccale ou de l’oropharynx. La notion d’intelligibilité par son aspect multifactorielle est complexe à définir, mais aussi, par extension, à évaluer avec précision. Les différents matériaux utilisés dans ces évaluations sont connus pour montrer des effets d’apprentissages imputables aux listes d’items courtes et fermées, présentes dans les batteries de tests classiques. Dans cette étude, nous évaluons l’effet d’apprentissage du matériel linguistique en comparant l’évolution des scores d’intelligibilité calculés à partir de la transcription de mots et de pseudo-mots, présentés en proportion équivalente, soit la répétition de 50 mots vs de 52 pseudo-mots. Nos résultats montrent un effet d’apprentissage des pseudo-mots lorsqu’ils sont répétés, dans les mêmes proportions que celui observé sur les mots. Ainsi, c’est la quantité de pseudo-mots qui permet de neutraliser l’effet d’apprentissage du matériel linguistique dans une évaluation de l’intelligibilité.

pdf bib abs
Peut-on marquer un focus contrastif par le geste manuel en suppléance vocale ?
Delphine Charuau | Nathalie Henrich Bernardoni | Silvain Gerber | Olivier Perrotin

Un paradigme expérimental élicitant la focalisation sur une syllabe a été élaboré dans une tâche de conversion chuchotement-parole avec contrôle manuel de l’intonation. Deux interfaces de contrôle intonatif ont été testées : contrôle isométrique par pression du doigt et isotonique par rotation du poignet. La réalisation de la focalisation par le geste a été observée, démontrant un transfert du contrôle naturel vers manuel de l’intonation. Les résultats sont également discutés en fonction de la position de la syllabe dans l’énoncé, et en fonction de l’interface de contrôle gestuel employée.

pdf bib abs
Réductions temporelles en français parlé : Où peut-on trouver les zones de réduction ?
Yaru Wu | Kim Gerdes | Martine Adda-Decker

Cet article examine la réduction dans la parole continue en français, ainsi que les différents facteurs qui contribuent au phénomène, tels que le style de parole, le débit de parole, la catégorie de mots, la position du phone dans le mot et la position du mot dans les groupes syntaxiques. L’étude utilise trois corpus de parole continue en français, couvrant la parole formelle, la parole moins formelle et la parole familière. La méthode utilisée comprend l’alignement forcé et l’étiquetage automatique des zones de réduction. Les résultats suggèrent que la réduction de la parole est présente dans tous les styles de parole, mais moins fréquente dans la parole formelle, et que la réduction est plus susceptible d’être observée dans les énoncés de parole avec un taux de parole élevé. La position médiane des mots ou des groupes syntaxiques tend à favoriser la réduction.

pdf bib abs
Représentation de la parole multilingue par apprentissage auto-supervisé dans un contexte subsaharien
Antoine Caubrière | Elodie Gauthier

Les approches auto-supervisées ont conduit à des avancées majeures dans le domaine de l’apprentissage profond. Par l’exploitation d’une grande quantité de données non annotées, ces approches ont notamment permis des améliorations dans des contextes peu dotés. Toutefois, les langues africaines restent majoritairement sous-représentées dans les jeux de données de préentraînement publiquement distribués. Dans ces travaux, nous préentraînons des modèles de parole auto-supervisés multilingues à partir de langues subsahariennes exclusivement. Nous étudions la pertinence des représentations apprises sur la tâche de reconnaissance de parole, en utilisant le jeu d’évaluation FLEURS-102. Notre modèle HuBERT Base obtient des résultats similaires face à l’approche multilingue w2v-bert de FLEURS, tout en étant plus efficient, avec 6 fois moins de paramètres et 7 fois moins de données. Nous présentont aussi un second modèle exploitant une sous-sélection équilibrée des données initiales, obtenant des performances compétitives avec près de 80 fois moins de données de préentraînement.

pdf bib abs
Retour auditif interne de la production de parole : mesures préliminaires de la vibration osseuse par accélérométrie et comparaison au son aérien
Raphael Vancheri | Coriandre Vilain | Nathalie Henrich-Bernardoni | Pierre Baraduc

Lorsqu’on parle, le retour auditif se décompose en une voie aérienne et une voie interne ou ‘par conduction osseuse’. Un locuteur entend les deux composantes, contrairement au récepteur. Alors que la moitié du signal cochléaire est interne, on connaît mal l’information qu’il véhicule et comment elle impacte le contrôle moteur oral. Dans cette étude, nous considérons deux indicateurs du signal auditif interne pendant la production de parole, la vibration des dents de la mâchoire supérieure et le son enregistré près du tympan. Une méthode de conversion de voix nous permet d’évaluer les différences informationnelles entre voix aérienne et voix ”osseuse” interne. Comme observé précédemment par la simple méthode péritympanique, la somme des retours acoustiques aérien et interne amène une lisibilité supérieure des trajectoires formantiques qui pourrait faciliter le contrôle de la production de parole.

pdf bib abs
Synthèse de gestes communicatifs via STARGATE
Louis Abel | Vincent Colotte | Slim Ouni

La synthèse de gestes lié à la parole est un domaine de recherche en pleine expansion. Cependant, les nouveaux systèmes utilisent souvent des architectures complexes, les rendant souvent inadaptés à leur utilisation dans des agents conversationnels incarnés ou dans d’autres domaines de recherche comme la linguistique, où le lien entre la parole et les gestes est difficile à étudier manuellement. Cet article présente STARGATE, une nouvelle architecture tirant parti de l’autorégression pour fournir des capacités en temps réel, mais aussi des convolutions de graphe couplées à l’attention pour incorporer des connaissances structurelles explicites et permettre une forte compréhension spatiale et temporelle du geste. Nous avons démontré que notre modèle est capable de générer des gestes convaincants en surpassant l’état de l’art dans une étude quantitative, tout en obtenant des scores légèrement meilleurs en termes de cohérence et de crédibilité des gestes générés liés à la parole sur une étude perceptive.

pdf bib abs
Un paradigme pour l’interprétation des métriques et pour mesurer la gravité des erreurs de reconnaissance automatique de la parole
Thibault Batextasciitilde neras Roux | Mickael Rouvier | Jane Wottawa | Richard Dufour

Les mesures couramment employées pour l’évaluation des transcriptions automatiques de la parole, telles que le taux d’erreur-mot (WER) et le taux d’erreur-caractère (CER), ont fait l’objet d’importantes critiques en raison de leur corrélation limitée avec la perception humaine et de leur incapacité à prendre en compte les nuances linguistiques et sémantiques. Bien que des métriques fondées sur les plongements sémantiques aient été introduites pour se rapprocher de la perception humaine, leur interprétabilité reste difficile par rapport au WER et CER. Dans cet article, nous surmontons ce problème en introduisant un paradigme qui intègre une métrique choisie pour obtenir un équivalent du taux d’erreur appelé Distance d’Édition Minimale, ou Minimum Edit Distance (minED). Nous proposons également d’utiliser cette approche pour mesurer la gravité des erreurs en fonction d’une métrique, d’un point de vue intrinsèque et extrinsèque.

pdf bib abs
Un système d’annotation automatique de la structure prosodique
Philippe Martin

On présente un système d’annotation prosodique permettant de visualiser les structures prosodiques générées par des règles de dépendance appliquées sur des événements prosodiques annotés automatiquement. Les événements prosodiques sont définis par des cibles tonales dans la notation ToBI, ou par des contours mélodiques, montants ou descendants, atteignant la hauteur la plus basse ou la plus haute de la phrase, et au-dessus ou au-dessous du seuil de glissando (c’est-à-dire perçus comme un changement mélodique ou un ton statique), mais d’autres définitions peuvent être utilisées au gré de l’utilisateur. À partir de ces définitions, les contours ou les cibles tonales alignés sur les voyelles des syllabes accentuées localisées sont affichés automatiquement. Des règles de dépendance définies par l’utilisateur opèrent sur ces évènements prosodiques pour déterminer et afficher la structure prosodique correspondante, permettant une comparaison visuelle avec la structure morphosyntaxique et conduisant à une meilleure compréhension de la manière dont les structures prosodiques peuvent amorcer le décodage syntaxique par l’auditeur.

pdf bib abs
Une comparaison de l’intonation ironique en français et en mandarin
Ziqi Zhou | Jalal Al-Tamimi | Hiyon Yoo

L’utilisation de corrélats acoustiques dans la production de l’ironie a été bien documentée. Cependant, dans quelle mesure les résultats sont comparables dans différentes langues reste une question inexplorée. Cette étude vise à réaliser une comparaison des patrons tonaux de l’ironie entre le français et le mandarin, en utilisant un protocole expérimental unifié. Une expérience de production a été menée pour susciter l’énoncé ironique. Les résultats ont d’abord été analysés par forêts aléatoires pour explorer le poids relatif de huit corrélats acoustiques comme marqueur de l’ironie. Ensuite, des modèles linéaires à effets mixtes (LMM) ont été utilisés pour explorer davantage les principaux corrélats acoustiques. Nos résultats ont confirmé que le patron tonal de l’ironie est spécifique à chaque langue, révélant des schémas différents de corrélats acoustiques utilisés pour produire l’ironie en français et en mandarin. De plus, un effet de genre sur l’énoncé ironique en français a été identifié.

pdf bib abs
Utilisation de wav2vec 2.0 pour des tâches de classifications phonétiques : aspects méthodologiques
Lila Kim | Cedric Gendrot

L’apprentissage auto-supervisé, particulièrement dans le contexte de la parole, a démontré son efficacité dans diverses tâches telles que la reconnaissance du locuteur et la reconnaissance de la parole. Notre question de recherche se concentre sur l’efficacité des représentations vectorielles - extraites de phonèmes - plus courtes par rapport à des séquences plus longues dans la détection de la nasalité. Deux approches distinctes ont été étudiées : extraire des vecteurs sur la durée du phonème et prendre des séquences plus longues avec une seconde ajoutée de chaque côté du phonème, puis récupérer la partie centrale a posteriori. Les résultats révèlent que les modèles réagissent différemment selon les phones et les locuteurs, avec une variabilité observée à ces niveaux. Le modèle à séquences longues surpasse le modèle à séquences courtes en assurant une corrélation plus robuste avec le débit d’air nasal.

pdf bib abs
Adaptation de modèles auto-supervisés pour la reconnaissance de phonèmes dans la parole d’enfant
Lucas Block Medin | Lucile Gelin | Thomas Pellegrini

La reconnaissance de parole d’enfant est un domaine de recherche encore peu développé en raison du manque de données et des difficultés caractéristiques de cette tâche. Après avoir exploré diverses architectures pour la RAP d’enfant dans de précédents travaux, nous nous attaquons dans cet article aux nouveaux modèles auto-supervisés. Nous comparons d’abord plusieurs modèles Wav2vec2, HuBERT et WavLM adaptés superficiellement à la reconnaissance de phonèmes sur parole d’enfant, et poursuivons nos expériences avec le meilleur d’entre eux, un WavLM base+. Il est ensuite adapté plus profondément en dégelant ses blocs transformer lors de l’entraînement sur parole d’enfant, ce qui améliore grandement ses performances et le fait surpasser significativement notre modèle de base, un Transformer+CTC. Enfin, nous étudions en détail les comportements de ces deux modèles en conditions réelles de notre application, et montrons que WavLM base+ est plus robuste à diverses tâches de lecture et niveaux de bruit.

pdf bib abs
Allongement vocalique en italien L2 et en français L2 : une marque de focalisation ?
Bianca Maria De Paolis

Notre étude explore le rôle de la durée vocalique comme indice de focalisation, à la fois en italien et en français, tant pour les locuteurs natifs que pour les apprenants L2. Nous visons à décrire l’influence potentielle de la L1 sur la L2 concernant cet indice. L’analyse porte sur la parole élicitée de 60 participants, répartis en quatre groupes : 15 italophones natifs, 15 francophones natifs, 15 apprenants francophones d’italien L2 et 15 apprenants italophones de français L2. Les locuteurs ont produit le même constituant cible en quatre conditions informationnelles : background, focalisation large,focalisation étroite identificative, focalisation étroite corrective. Les résultats montrent une influence du contexte informationnel sur la durée des voyelles accentuées chez les natifs italophones, mais pas chez les natifs français. Cette divergence se reflète chez les apprenants : les apprenants italophones de français ajustent la durée des voyelles accentuée selon la condition informationnelle, tandis que les francophones apprenant l’italien ne le font pas. Nous discutons ces résultats en lien avec d’autres marqueurs prosodiques et syntaxiques de focus, en tenant compte des différences typologiques entre l’italien et le français et des théories sur l’acquisition de la prosodie en L2.

pdf bib abs
Analyse Factorielle de signaux sonores : développement d’une méthode automatique de détermination des frontières optimales entre canaux de fréquence
Agnieszka Duniec | Elisabeth Delais-Roussarie | Olivier Crouzet

Des études récentes supportent l’hypothèse d’une relation entre les propriétés statistiques des signaux de parole et les mécanismes perceptifs : les gammes de fréquence présentant une corrélation dans leurs modulations d’amplitude pourraient être associées à des frontières spectrales relativement stables envisagées comme optimales sur le plan perceptif. Cependant, des limites afférentes à ces études antérieures ressortent : (1) elles se fondent pour la plupart sur des critères subjectifs à travers l’observation visuelle des courbes de résultats statistiques, et (2) elles n’envisagent pas que les résultats puissent varier en fonction des échantillons de données sélectionnés, de la nature des signaux utilisés, ou de la taille des échantillons. Même si cette position peut être argumentée en lien avec l’approche du codage efficace, cet aspect afférent au degré de variation potentiel nécessite d’être évalué. Nous avons mis en place une méthode de détermination automatique des frontières qui permet de répliquer les travaux antérieurs en introduisant une évaluation expérimentale de ces limites et discutons de quelques résultats préliminaires en comparaison avec les études précédentes.

pdf bib abs
Apprentissage profond pour l’analyse de la parole pathologique : étude comparative entre modèles CNN et à base de transformers
Malo Maisonneuve | Corinne Fredouille | Muriel Lalain | Alain Ghio | Virginie Woisard

Les cancers des voies aérodigestives supérieures (VADS) ont un impact significatif sur la capacité des patients à s’exprimer, ce qui affecte leur qualité de vie. Les évaluations actuelles de la parole pathologique sont subjectives, justifiant le besoin de méthodes automatiques et objectives. Un modèle auto-supervisé basé sur Wav2Vec2 est proposé pour la classification de phonèmes chez les patients atteints de cancer des VADS, visant une amélioration des taux de bonne classification et une meilleure discrimination des caractéristiques phonétiques. Les impacts des paramètres d’affinage, des données de pré-entraînement, de la taille du modèle et des données d’affinage sont explorés. Nos résultats montrent que l’architecture Wav2Vec2 surpasse une approche basée sur un CNN, et montre une corrélation significative avec les mesures perceptives. Ce travail ouvre la voie à une meilleure compréhension de la parole pathologique, via une représentation auto-apprise de la parole, très pertinente pour des approches d’interprétation à destination des cliniciens.

pdf bib abs
Audiocite.net un grand corpus d’enregistrements vocaux de lecture en français
Soline Felice | Solène Evain | Solange Rossato | François Portet

L’arrivée de l’apprentissage auto-supervisé dans le domaine du traitement automatique de la parole a permis l’utilisation de grands corpus non étiquetés pour obtenir des modèles pré-appris utilisés comme encodeurs des signaux de parole pour de nombreuses tâches. Toutefois, l’application de ces méthodes de SSL sur des langues telles que le français s’est montrée difficile due à la quantité limitée de corpus de parole du français publiquement accessible. C’est dans cet objectif que nous présentons le corpus Audiocite.net comprenant 6682 heures d’enregistrements de lecture par 130 locuteurs et locutrices. Ce corpus est construit à partir de livres audio provenant du site audiocite.net. En plus de décrire le processus de création et les statistiques obtenues, nous montrons également l’impact de ce corpus sur les modèles du projet LeBenchmark dans leurs versions 14k pour des tâches de traitement automatique de la parole.

pdf bib abs
Comparaison de mesures pour la détection automatique de déviance dans la dysarthrie ataxique
Natacha Miniconi | Cédric Gendrot | Angélina Bourbon | Leonardo Lancia | Cécile Fougeron

Cette étude explore l’utilisation d’un Réseau de Neurones Convolutifs (CNN) pour distinguer la parole de patients dysarthriques ataxiques de celle de locuteurs neurotypiques, en utilisant diverses entrées. L’objectif est d’extraire automatiquement des informations pertinentes sur les troubles de la parole. Le CNN est utilisé pour exploiter les caractéristiques temporelles et spectrales des signaux de parole via des spectrogrammes, des trajectoires de formants et des courbes de modulation cepstrale. Comparé à un Multi-Layer Perceptron (MLP) alimenté par des mesures acoustico-phonétiques ciblées sur la modulation cepstrale, le CNN présente de meilleurs scores de classification dans la distinction entre dysarthrie et non dysarthrie, en particulier avec la modulation cepstrale. La population CTRL obtient de meilleurs taux de classification que la population SCA avec un MLP, alors qu’on on observe l’inverse avec un CNN.

pdf bib abs
Création d’un corpus parallèle de styles de parole en mandarin via l’auto-transcription et l’alignement forcé
Jingyi Sun | Yaru Wu | Nicolas Audibert | Martine Adda-Decker

La technologie ASR excelle dans la transcription précise des discours lus préparés, mais elle rencontre encore des défis lorsqu’il s’agit de conversations spontanées. Cela est en partie dû au fait que ces dernières relèvent d’un registre de langage informel, avec disfluences et réductions de parole. Afin de mieux comprendre les différences de production en fonction des styles de parole, nous présentons la création d’un corpus de parole conversationnelle, dont des extraits sont ensuite lus par leurs auteurs. Le corpus comprend 36 heures de parole en chinois mandarin avec leur transcription, réparties entre conversations spontanées et lecture. Nous avons utilisé WHISPER pour la transcription automatique de la parole et le Montreal Forced Aligner pour l’alignement forcé, résultant dans un corpus de parole transcrit avec annotations multi-niveaux incluant phonèmes, caractères/syllabes et mots. De telles productions de parole parallèles (en modes spontané et lu) seront particulièrement intéressantes pour l’étude des réductions temporelles.

Les plosives, généralement accompagnées d’un burst (relâchement audible) après la phase d’occlusion, sont néanmoins produites sans burst dans certaines langues d’Asie comme le thaï. Cette absence de bruit est attribuée au non relâchement brusque des articulateurs et est observée exclusivement lorsque les plosives sont en finale de syllabe, jamais en initiale. Nous formulons l’hypothèse qu’un mouvement d’abaissement du larynx pourrait provoquer une diminution de la pression intraorale pendant la tenue de l’occlusion induisant le non-relâchement articulatoire. Nous avons examiné le mouvement vertical du larynx chez deux locutrices natives lors de la production des plosives /p, t, k/ dans une tâche de lecture d’une liste de pseudo-mots de structure CVC. Les résultats montrent une grande variabilité dans le mouvement d’abaissement du larynx en fonction des segments consonantiques, vocaliques et du contexte tonal, suggérant que plusieurs facteurs pourraient être impliqués dans l’explication de la diminution de la pression intraorale.

pdf bib abs
Détection automatique des schwas en français - Application à la détection des troubles du sommeil
Colleen Beaumard | Vincent P. Martin | Yaru Wu | Jean-Luc Rouas | Pierre Philip

La Somnolence Diurne Excessive affecte négativement les individus et est un problème de santé publique. L’analyse de la parole pourrait aider les cliniciens à la surveiller. Nous nous sommes concentrés sur la détection du schwa /@/ et avons trouvé un lien entre le nombre d’occurrences annoté manuellement et le niveau de somnolence des patients hypersomnolents d’un sous-ensemble du corpus TILE. Dans un second temps, afin de pouvoir généraliser ces résultats à l’intégralité du corpus, nous avons conçu un système de détection des schwas, robuste à la somnolence. Dans un troisième temps, nous avons étendu notre analyse à deux autres phonèmes supplémentaire /ø/ et /oe/. Nous avons ainsi observé une relation significative entre /ø/ et la combinaison des trois phonèmes et la somnolence subjective à court terme.

pdf bib abs
Effet du vieillissement sur l’anticipation d’arrondissement intra-syllabique en français
Louise Wohmann-Bruzzo | Cecile Fougeron | Nicolas Audibert

Cette étude examine l’évolution de l’anticipation d’arrondissement intra-syllabique en fonction de l’âge, en se basant sur les travaux précédents de D’Alessandro et Fougeron (2021), qui montre une diminution de la coarticulation inter-syllabique chez les personnes âgées. Nous avons analysé acoustiquement les syllabes /sy/ et /si/ de 40 locuteurs français répartis en deux groupes : 20 jeunes adultes (23-34 ans) et 20 personnes âgées (72-86 ans). Nos résultats montrent une diminution significative de l’anticipation d’arrondissement chez les âgés, indépendante d’une diminution de débit articulatoire. Moins de coarticulation au sein d’une même syllabe ne peut pas s’expliquer par un encodage syllabe par syllabe, comme pouvait l’être la diminution de coarticulation entre syllabe. Nous avançons donc que cette diminution globale de la co-articulation reflète un changement de paramétrisation de la parole chez les personnes âgées limitant le chevauchement entre gestes articulatoires et garantissant l’atteinte des cibles articulatoires successives.

pdf bib abs
Effets du shadowing et de l’imitation en tant que méthodes d’entraînement à la prononciation du /ɥi/ en français
Wenxun Fu | Martine Adda-Decker | Barbara Kühnert

Trente étudiantes mandarines apprenant le français ont participé à un entraînement autonome de quatre semaines, utilisant l’imitation tardive et le shadowing (répétition immédiate). Cette étude se concentre sur le résultat de la réalisation du /i/ dans /ɥi/, souvent réalisé proche du /y/. Les posttests montrent des améliorations dans la perception et la production de /ɥi/. Pour les apprenants de niveaux intermédiaires ayant pratiqué le shadowing, la distinction entre le troisième formant (F3) et le deuxième formant (F2) du /i/ dans /ɥi/ est significativement plus élevé après l’entraînement, indiquant une meilleure distinction avec /y/. Le shadowing semble efficace dans l’amélioration de la perception chez les débutants et apprenants intermédiaires, mais uniquement dans la production pour les niveaux intermédiaires. Nous suggérons que le shadowing, en tant que méthode hautement cognitive et active, puisse servir d’alternative à la méthode d’imitation, sous réserve que la compétence linguistique des apprenants leur permette d’accomplir la tâche avec succès.

Peut-on enseigner l’intonation française en classe avec une synthèse vocale contrôlée gestuellement sur une tablette ? La fréquence fondamentale et la durée de quatre phrases déclaratives, quatre questions polaires, quatre énoncés exprimant l’incrédulité (1 à 4 syllabes) de deux apprenantes ukrainiennes débutantes en français ont été comparées avant et après quatre entraînements hebdomadaires. Les apprenantes devaient écouter un enregistrement de référence, puis visualiser le modèle sur la tablette, tracer l’intonation manuellement, écouter le résultat synthétisé, et tracer et écouter leur tracé sans guide. Elles produisaient initialement des phrases déclaratives avec une intonation ascendante, et ont différencié les déclarations et les questions polaires après l’entraînement. L’expression de l’incrédulité s’est améliorée pour l’une. L’autre a montré quelques difficultés à maîtriser cette technologie. Cette première étude de cas utilisant la synthèse vocale contrôlée gestuellement est une approche prometteuse permettant plus de pratique de l’intonation en classe.

pdf bib abs
Entraînement de la coordination respiration-parole en apprentissage de la lecture assistée par ordinateur
Delphine Charuau | Andrea Briglia | Erika Godde | Gérard Bailly

Cette étude vise d’une part, à identifier les indices respiratoires pouvant être considérés comme la signature de l’amélioration de la fluence, et d’autre part, à examiner les effets de l’entraînement de lecture assistée par ordinateur sur la progression de la coordination respiration/parole. 66 élèves (CE2-CM2) ont été répartis en trois groupes selon le mode d’entraînement suivi : contrôle, entraînement avec surlignage par mot et entraînement avec surlignage par groupe de souffle. Tous ont été enregistrés avant (pré-test) et après trois semaines d’entraînement de lecture assistée (post-test) lors de la lecture d’un texte entraîné et d’un autre non-entraîné. Les résultats indiquent que la planification respiratoire et la gestion des pauses est améliorée sur un texte entraîné. Toutefois, il n’y a pas de transfert significatif de ces améliorations sur le texte non-entraîné.

pdf bib abs
Erreurs de prononciation en L2 : comparaison de méthodes pour la détection et le diagnostic guidés par la didactique
Romain Contrain | Julien Pinquier | Lionel Fontan | Isabelle Ferrané

La détection et diagnostic d’erreurs de prononciation nécessite des systèmes adaptés aux spécificités de la parole non-native. Élaborer de tels systèmes reste difficile à cause de la rareté des corpus dédiés incluant des annotations expertes. Dans cet article, nous proposons et comparons deux approches, l’une basée sur une transcription phonétique et l’autre sur l’alignement de signaux audio, élaborées dans le but de servir dans un programme d’entraînement à la prononciation assisté par ordinateur (EPAO). Nous les évaluons sur un corpus de parole non-native annoté selon des considérations didactiques, et nous trouvons que l’approche basée sur l’alignement a des propriétés préférables pour l’EPAO, dépassant la précision de l’autre approche de 31,1 et 3,8 en absolu sur deux erreurs communes des apprenants japonais du français.

Cette étude analyse l’articulation des allophones clairs et sombres du /l/ de l’anglais par trois locuteurs francophones et une locutrice native d’anglais britannique. Nous examinons en imagerie par résonance magnétique si les apprenants développent un /l/ sombre (absent du français), avec plus de rétraction en coda qu’en attaque comme attendu en anglais standard. Nous mesurons également si les apprenants acquièrent la corrélation observée chez les natifs entre longueur de la rime et degré de rétraction du /l/sombre. L’effet de l’antériorité théorique et empirique de la voyelle est aussi analysé. Nos résultats indiquent que les participants ont acquis la distribution allophonique attendue avec une influence de l’antériorité, mais pas de la longueur de la voyelle. Notre étude contribue ainsi à caractériser les gestes articulatoires complexes acquis par des apprenants avancés de l’anglais à travers une technique d’imagerie permettant de visualiser l’intégralité des zones articulatoires pertinentes pour le /l/ de l’anglais.

La perte d’intelligibilité chez des patients atteints de troubles de la production de la parole est un élément important du bilan orthophonique. Nous proposons un test fondé sur des séquences délexicalisées de type Voyelle-Consonne-Voyelle ainsi que sur des voyelles isolées extraites automatiquement d’un corpus de lecture. 12 locuteurs contrôles et 30 patients atteints de la maladie de Parkinson ont participé à l’expérience. Pour chaque locuteur, nous avons extrait automatiquement 50 séquences VCV et 50 voyelles isolées qui ont été soumises à l’identification par des auditeurs. La mesure de l’intelligibilité est fondée sur le comptage du nombre de traits phonémiques mal perçus par les auditeurs (Perceived Phonological Deviation = PPD). Nos résultats montrent une différence significative entre le groupe contrôle et les patients. Nous n’observons aucun effet lié au traitement dopaminergique. En revanche, nous observons une augmentation du PPD en fonction de la sévérité de la dysarthrie évaluée cliniquement par le neurologue.

pdf bib abs
Évaluation perceptive de l’anticipation de la prise de parole lors d’interactions dialogiques en français
Rémi Uro | Albert Rilliard | David Doukhan | Marie Tahon | Antoine Laurent

Cette étude présente un test perceptif évaluant les indices permettant la planification de la prise de parole lors d’interactions orales spontanées. Des Unités Inter-Pauses (IPU) ont été extraites de dialogues du corpus REPERE et annotées en terminalité. Afin de déterminer quels paramètres affectent les jugements de la possibilité de prendre la parole, les stimulus ont été présentés sous forme audio ou textuelle.Les participant·es devaient indiquer la possibilité de prendre la parole «~Maintenant~», «~Bientôt~» ou «~Pas encore~», à la fin des IPU tronqués de 0 à 3 mots prosodiques. Les participant·es sont moins susceptibles de prendre la parole pour les frontières non terminales en modalité audio que textuelle. La modalité audio permet également d’anticiper une fin de tour de parole au moins trois mots avant sa fin, tandis que la modalité textuelle permet moins d’anticipation. Ces résultats soutiennent l’importance des indices contenus dans la parole pour la planification des interactions dialogiques.

pdf bib abs
Frontières entre la perception de la voix normophonique et pathologique chez des auditeurs naïfs
Amelia Pettirossi | Nicolas Audibert | Lise Crevier-Buchman

Nous étudions l’hétéroévaluation de la qualité de voix chez une population de femmes francophones comprenant des professionnelles de la voix et des patientes recrutées lors d’une consultation de phoniatrie. Des extraits de parole ont été évalués par un expert à l’aide du GRBAS et par deux groupes de 30 et 40 auditeurs naïfs avec des protocoles perceptifs destinés à évaluer la qualité de voix globale. Ces évaluations ont été mises en correspondance afin d’observer de potentielles corrélations entre la perception de la pathologie vocale chez les auditeurs naïfs et les paramètres du GRBAS expert. Les voix perçues comme plus pathologiques par les auditeurs naïfs sont bien associées à un grade global plus élevé, avec une influence prépondérante de la sévérité du serrage vocal. Les indices de raucité et de souffle sont moins liés à la perception par les naïfs des voix comme pathologiques.

pdf bib abs
Implémentation ouverte et étude de BEST-RQ pour le traitement de la parole
Ryan Whetten | Titouan Parcollet | Marco Dinarelli | Yannick Estève

L’apprentissage auto-supervisé (SSL) a fait ses preuves pour le traitement automatique de la parole mais est généralement très consommateur de données, de mémoire et de ressources matérielles. L’approche BEST-RQ (BERT-based Speech pre-Training with Random-projection Quantizer) est une approche SSL performante en reconnaissance automatique de la parole (RAP), plus efficiente que wav2vec 2.0. L’article original de Google qui introduit BEST-RQ manque de détails, comme le nombre d’heures de GPU/TPU utilisées pour le pré-entraînement et il n’existe pas d’implémentation open-source facile à utiliser. De plus, BEST-RQ n’a pas été évalué sur d’autres tâches que la RAP et la traduction de la parole. Dans cet article, nous décrivons notre implémentation open-source de BEST-RQ et réalisons une première étude en le comparant à wav2vec 2.0 sur quatre tâches. Nous montrons que BERT-RQ peut atteindre des performances similaires à celles de wav2vec 2.0 tout en réduisant le temps d’apprentissage d’un facteur supérieur à deux.

pdf bib abs
L’impact du style de parole sur l’opposition de longueur des voyelles en arabe jordanien
Mohammad Abuoudeh | Jalal Al-Tamimi | Olivier Crouzet

Cette étude examine l’impact des changements pouvant se produire dans deux styles de parole – lire vs. raconter une histoire – sur les informations spectrales et temporelles des voyelles longues et brèves en arabe jordanien. La lecture d’un texte est souvent considérée comme de la parole formelle ou soutenue, alors que la narration est plus spontanée. Le passage d’un style à l’autre peut engendrer des changements temporels et spectraux. C’est pourquoi un intérêt particulier a été porté au comportement des voyelles longues et brèves face à ces deux types de situations. Dix locuteurs de l’arabe jordanien ont lu puis raconté une histoire. Contrairement à ce qui était attendu, les caractéristiques spectrales et temporelles des voyelles n’ont pas été influencées par le changement de style. Cela suppose que dans cette expérience, le passage d’un style à l’autre a eu peu de conséquences sur la qualité et la quantité vocaliques. Cependant, les conditions comparées pourraient ne pas être suffisamment contrastées pour faire ressortir de telles différences. Les autres composantes du corpus en cours de constitution pourraient fournir des conditions plus à même de distinguer différents styles de parole.

pdf bib abs
La reconnaissance automatique de phonèmes est-elle réellement adaptée pour l’analyse de la parole spontanée ?
Vincent P. Martin | Colleen Beaumard | Charles Brazier | Jean-Luc Rouas | Yaru Wu

La transcription phonémique automatique de la parole spontanée trouve des applications variées, notamment dans l’éducation et la surveillance de la santé. Ces transcriptions sont habituellement évaluées soit par la précision de l’identification des phonèmes, soit par leur segmentation temporelle. Jusqu’à présent, aucun système n’a été évalué simultanément sur ces deux tâches. Cet article présente l’évaluation d’un système de transcription phonétique du français spontané (corpus Rhapsodie) basé sur Kaldi. Ce système montre de bons résultats en identification des phonèmes et de leurs catégories, avec des taux d’erreur de 19,2 et 13,4 respectivement. Il est cependant moins performant en segmentation, manquant en moyenne 40 de la durée des phonèmes et 34 des catégories. Les performances s’améliorent avec le niveau de planification de la parole. Ces résultats soulignent le besoin de systèmes de transcription phonétique automatique fiables, nécessaires à des analyses plus approfondies de la parole spontanée.

pdf bib abs
La sonorité n’est pas l’intensité: le cas des diphtongues dans une langue tonale
Yunzhuo Xiang | Jiayin Gao | Cédric Gendrot

Cette étude explore le lien entre la sonorité et l’intensité dans la production des diphtongues ouvrantes et fermantes en mandarin de Pékin. Étant donné qu’une voyelle ouverte est considérée comme plus sonore qu’une voyelle fermée, nous nous attendons à constater une augmentation d’intensité dans une diphtongue ouvrante et une diminution d’intensité dans une diphtongue fermante. Or, nos résultats, basés sur les modèles GAMM (modèles additifs généralisés à l’effet mixte) révèlent un pattern différent de nos attentes : la dynamique d’intensité au sein de la diphtongue n’est pas liée à l’aperture vocalique. En revanche, conformément aux études précédentes, nous trouvons une corrélation positive entre la F0 et l’intensité. Nous interrogeons ainsi sur la validité de définir la sonorité à base de l’intensité seule. Enfin, nous discutons du rôle de la F0 dans la définition de la sonorité et l’apport de notre étude pour modéliser la sonorité dans une langue tonale.

pdf bib abs
Le /r/ du mandarin est-il une fricative plutôt qu’une liquide ?
Yezhou Jiang | Rachid Ridouane | Pierre André Hallé

Cette étude contribue au débat sur la nature phonologique de la consonne du mandarin notée <r> en pinyin : liquide ou obstruante ? /r/ ou /ʐ/ ? Nous savons que les clusters C1C2 sont d’autant plus sujets à la réparation perceptive C1C2 > C1C2 que le profil de sonorité de C1C2 est marqué : pour C1=occlusive, nous devrions observer davantage de réparations lorsque C2 = /s/ que lorsque C2 = /l/. Qu’en sera-t-il avec C2=(/r/ présumé) ? Nous utilisons la difficulté de discrimination de C1C2-C1C2 comme index de réparation de C1C2 (auditeurs mandarins ; stimuli produits par une bilingue mandarin-russe). Conformément aux prédictions, la discrimination est moins bonne pour/s/ que pour /l/. Mais de manière cruciale, la discrimination est aussi mauvaise pour le /r/ présumé que pour /s/ (prou–prou psou–psou << plou–plou). Ces données suggèrent que la consonne notée <r> du mandarin est plutôt une obstruante qu’une liquide : /ʐ/ plutôt que /r/.

Après thyroïdectomie totale, la plainte vocale des patients, hors paralysie récurrentielle, est attribuée à l’atteinte du nerf laryngé supérieur (NLS) difficilement objectivable. Cette étude détermine si des paramètres rythmiques (ici temporels) de la parole de ces patients peuvent servir à son diagnostic. Elle a été menée chez 28 femmes avec suspicion d’atteinte de la branche crico-thyroïdienne du NLS (CT-), comparées à 27 autres sans dommage (CT+) après thyroïdectomie, au regard d’une population témoin (T). Les paramètres rythmiques étudiés montrent une diminution de la proportion des intervalles vocaliques sur tout l’énoncé, ainsi qu’une augmentation de la durée des intervalles consonantiques, moins variables, chez les CT-. La mobilisation des plis vocaux serait plus complexe et la réalisation des consonnes semblerait mettre en difficulté les CT-. Cette étude innovante sur le rythme des CT-, a tout son intérêt pour répondre aux attentes des patients et des professionnels de la voix.

pdf bib abs
Nouvelle tâche sémantique pour le corpus de compréhension de parole en français MEDIA
Nadège Alavoine | Gaëlle Laperrière | Christophe Servan | Sahar Ghannay | Sophie Rosset

La détection d’intention et de concepts sont des tâches essentielles de la compréhension de la parole(SLU). Or il n’existe que peu de données annotées en français permettant d’effectuer ces deux tâches conjointement. Cependant, il existe des ensembles de données annotées en concept, dont le corpus MEDIA. Ce corpus est considéré comme l’un des plus difficiles. Néanmoins, il ne comporte que des annotations en concepts et pas en intentions. Dans cet article, nous proposons une version étendue de MEDIA annotée en intentions pour étendre son utilisation. Cet article présente une méthode semi-automatique pour obtenir cette version étendue. De plus, nous présentons les premiers résultats des expériences menées sur cet ensemble de données en utilisant des modèles joints pour la classification des intentions et la détection de concepts.

pdf bib abs
Perception des frontières prosodiques intonatives du français par des natifs : Études comportementale et électroencéphalographique
Lei Xi | Rachid Ridouane | Frédéric Isel

Deux expériences sur la désambiguïsation syntaxique par prosodie sont exposées dans cette étude. Dans l’expérience perceptive, nous avons demandé à 20 francophones natifs de compléter des phrases localement ambiguës afin de déterminer leur capacité à assigner correctement les mots cibles à leurs fonctions syntaxiques sur la base des indices prosodiques disponibles. Dans l’expérience électroencéphalographique (EEG), le signal continu de 20 francophones natifs a été enregistré pendant qu’ils écoutaient les mêmes phrases ambiguës. Les résultats perceptifs ont montré que les participants, bien que natifs du français, ont eu des difficultés à établir la fonction syntaxique du mot cible par l’indice prosodique. En revanche, les données neurocognitives suggèrent que les frontières intonatives ont été analysées comme l’atteste la Closure Positive Shift (CPS), présentant un maximum autour de 400 à 500 ms après l’onset de la dernière syllabe qui précède la frontière prosodique. Nos données soulignent l’importance du contexte prosodique complet et informatif en perception de la parole.

pdf bib abs
Peut-on évaluer la compréhensibilité de la parole sans référence quant aux intentions de communication du locuteur ? Une étude auprès d’apprenants germanophones de FLE
Verdiana De Fino | Isabelle Ferrané | Julien Pinquier | Lionel Fontan

En didactique des langues étrangères, la compréhensibilité des énoncés produits par les apprenants est le plus souvent évaluée de manière subjective, à l’aide d’échelles qualitatives. Très souvent, ces évaluations sont menées sans que l’évaluateur ne soit informé du contenu sémantique du message que souhaitait transmettre l’apprenant. L’évaluateur peut donc ignorer des divergences entre ce dernier et sa propre interprétation de l’énoncé – avec pour conséquence une surestimation de la compréhensibilité. Dans cette étude, nous vérifions l’existence d’un tel biais en demandant à 80 francophones natifs d’évaluer la compréhensibilité d’énoncés produits par neuf apprenants germanophones de français lors d’une tâche de traduction. L’évaluation est conduite sans référence (condition « a priori »), et en prenant connaissance d’une traduction de référence (condition « a posteriori »). Les résultats démontrent que les scores de compréhensibilité sont significativement plus élevés dans la condition a priori que dans la condition a posteriori, avec une taille d’effet importante.

Dans cet article, nous présentons notre contribution à la tâche de classification des émotions dans la parole dans le cadre de notre participation à la campagne d’évaluation Odyssey 2024. Nous proposons un système hybride qui tire parti à la fois des informations du signal audio et des informations sémantiques issues des transcriptions automatiques. Les résultats montrent que l’ajout de l’information sémantique permet de dépasser les systèmes uniquement audio.

pdf bib abs
Preuve de concept d’un système de génération automatique en Langue française Parlée Complétée
Brigitte Bigi | Nuria Gala

La Langue française Parlée Complétée (LfPC) est un système de communication développé pour les personnes sourdes afin de compléter la lecture labiale avec une main, au niveau phonétique. Il est utilisé par les enfants pour acquérir des compétences en lecture, en lecture labiale et en communication orale. L’objectif principal est de permettre aux enfants sourds de devenir des lecteurs et des locuteurs compétents en langue française. Nous proposons une preuve de concept (PoC) d’un système de réalité augmentée qui place automatiquement la représentation d’une main codeuse sur la vidéo pré-enregistrée d’un locuteur. Le PoC prédit la forme et la position de la main, le moment durant lequel elle doit être affichée, et ses coordonnées relativement au visage dans la vidéo. Des photos de mains sont ensuite juxtaposées à la vidéo. Des vidéos annotées automatiquement par le PoC ont été montrées à des personnes sourdes qui l’ont accueilli et évalué favorablement.

pdf bib abs
Rôle de l’activité laryngale dans la production des consonnes d’arrière en arabe levantin
Jalal Al-Tamimi

Cette étude examine le rôle de l’activité laryngale dans la production des consonnes d’arrière en arabe levantin. 26 mesures incluant la hauteur du larynx (HL), le contact de glotte (quotient fermé; QF) et la pente spectrale (PS) ont été obtenues de données d’éléctroglottographies et d’acoustiques synchronisées. À partir des classifications via des forêts aléatoires (Random Forests), sept mesures ont été identifiées comme les plus importantes pour discriminer entre les six classes. Ensuite, une modélisation via des Régressions Additives à Effets-Mixtes montre que les consonnes pharyngales sont associées à HL, QF et PS, résultant d’une différence de la saillance spectrale causée par une constriction épilaryngale. Les consonnes pharyngalisées induisent des traits HL, QF et PS causés par une fermeture abrupte de la glotte; les consonnes uvulaires induisent des traits HL, QF et PS. Ces changements sont corrélés avec le trait [+Constricted Glottis] et suivent les prédictions du Laryngeal Articulator Model.

pdf bib abs
Sandhi tonal en shanghaïen : une étude acoustique des contours dissyllabiques chez des locuteurs jeunes
Yu Chen | Nathalie Vallée | Thi-Thuy-Hien Tran | Silvain Gerber

Le shanghaïen possède deux types de sandhi tonal : Left Dominant Sandhi (LDS) dans les composés sémantiques de type syntagme nominal (SN) et Right Dominant Sandhi (RDS) dans des phrases prosodiques de type syntagme verbal (SV). Cette étude examine les caractéristiques acoustiques du contour tonal dans des SN et SV dissyllabiques chez trois locutrices jeunes. Nos résultats montrent que les tons des SN subissent des changements phonologiques relevant du LDS, alors que les SV sont plutôt soumis aux effets phonétiques de la coarticulation tonale plutôt qu’au RDS. L’absence de différences significatives entre les SN et les SV ne permet pas de généraliser une distinction entre eux uniquement sur la base des réalisations tonales. Cette étude exploratoire ouvre des perspectives pour de futurs travaux intergénérationnels sur les productions tonales et la perception du sandhi tonal, en étendant le corpus à différentes positions au sein de la phrase et différentes classes d’âge.

pdf bib abs
Synthèse de syllabes avec un modèle de Maeda piloté par une représentation complexe
Frédéric Berthommier

Un modèle mathématique est construit sur une notion de coordination des articulateurs à partir d’une représentation bidimensionnelle complexe. Les voyelles sont représentées par des positions en bordure du cercle unité, et pour le modèle de Maeda, les paramètres articulatoires sont générés avec une fonction de coordination facile à configurer. Les consonnes plosives /bdg/ sont encodées de la même manière, mais pour produire des syllabes, le graphe reliant les positions phonétiques distingue les arcs vocaliques et les arcs consonantiques. Un flux de paramètres articulatoires est dérivé par application sélective de la fonction de coordination. Les contributions de deux groupes d’articulateurs sont ainsi superposées et synchronisées pour piloter le modèle de Maeda et obtenir la synthèse de trajectoires formantiques. Ce modèle possède un schéma déterministe similaire à celui de la phonologie articulatoire, mais de nombreuses simplifications sont opérées.

pdf bib abs
Traitement incrémental de la prosodie en L2
Giuseppina Turco | Chie Nakamura | Hiyon Yoo

Les auditeurs natifs s’appuient sur des indices prosodiques pour résoudre les ambiguïtés syntaxiques à un stade très précoce du traitement en ligne des phrases. Nous proposons de tester si un mécanisme similaire est utilisé par les auditeurs de langue seconde. En utilisant un paradigme du monde visuel, nous avons testé des phrases en anglais avec une ambiguïté d’attachement du syntagme prépositionnel avec des apprenants français d’anglais L2. L’impact de la frontière prosodique placée avant ou après le Syntagme Nominal objet a été examiné (p. ex. The boy will write to the panda with the crayon, ou The boy will write to the panda with the crayon). Nos résultats préliminaires montrent que les apprenants français sont capables d’intégrer l’information des frontières prosodiques pour résoudre l’ambiguïté syntaxique plus rapidement que les populations d’apprenants testées précédemment (c.-à-d. L1 japonais et L2 anglais). Cela suggère que les apprenants exploitent des indices prosodiques fins dans les décisions d’analyse syntaxique pour localiser l’information de frontière.

pdf bib abs
Une étude exploratoire de la parole sifflée en tant que signal modulé
Liem Landri | Benjamin O’Brien | Anna Marczyk

La présente étude propose une analyse comparative exploratoire entre l’espagnol parlé et sifflé (le silbo gomero) en termes du signal modulé à l’aide du MPS (spectre de puissance de modulation). Le résultat met en évidence des similarités entre ces deux modalités de la langue dans la plage des modulations spectrotemporelles lentes (1-8 Hz), associées à la compréhensibilité, tandis que des dissemblances sont observées dans la plage au-delà de 8 Hz sur l’axe temporel et 1 cyc/octave sur l’axe spectral, liées à l’intelligibilité. Ce résultat suggère que la modalité sifflée pourrait optimiser cette niche acoustique spécifique facilitant le décodage du message.

pdf bib abs
Une étude intra et inter-dialectale des voyelles du korebaju
Jenifer Andrea Vega Rodriguez | Nathalie Vallée | Thiago Chacon | Christophe Savariaux | Silvain Gerber

Cette étude a pour but la description des qualités vocaliques présentes dans deux variétés de korebaju, une langue tucanoane parlée dans le piémont de l’Amazonie colombienne. Les analyses acoustiques et statistiques révèlent l’absence de différences significatives entre les voyelles des deux variétés. Néanmoins, des variations liées à la génération et au genre au sein d’une même variété ont été constatées. Les résultats suggèrent que la perception d’une glottalisation plus prononcée dans la variété tama pourrait être associée à une distinction morphologique, une hypothèse actuellement en cours d’examen en prenant en considération le système tonal, la nasalisation et la morphologie. Cet article est une version améliorée et en français de celui figurantdans les actes de la conférence 2nd Annual Meeting of the Special Interest Group on Under-resourced Languages, SIGUL-ISCA en 2023.

pdf bib abs
Une nouvelle grammaire de l’intonation de la phrase française
Philippe Martin

On propose une nouvelle grammaire prosodique de l’intonation de la phrase en français. Cette grammaire rassemble des règles de réécriture opérant sur des événements prosodiques alignés sur les voyelles des syllabes accentuées des groupes accentuels, en position finale en français. Ces règles définissent les séquences bien formées d’évènements prosodiques de la phrase, quelle que soit sa complexité, en s’assurant que les conditions nécessaires et suffisantes pour indiquer sans ambiguïté une structure prosodique donnée soient remplies. Elles remettent en cause, entre autres, l’annotation d’un ton H* ou LH* aligné sur la frontière droite des syntagmes intonatifs intermédiaires ip.

pdf bib abs
Vérification automatique de la voix de locuteurs après resynthèse à l’aide de PPG
Thibault Gaudier | Marie Tahon | Anthony Larcher | Yannick Estève

La création de contenu journalistique peut être assistée par des outils technologiques comme la synthèse de parole. Cependant l’éditeur doit avoir la possibilité de contrôler la génération du contenu audio comme la prosodie, la prononciation ou le contenu linguistique. Dans ces travaux, un système de conversion de voix génère un signal de locuteur cible à partir d’une représentation temporelle de type Phonetic PosteriorGrams (PPGs) extraite d’un audio source. Les PPGs démêlent le contenu phonétique du contenu rythmique, et sont généralement considérés indépendants du locuteur. Cet article présente un système de conversion utilisant les PPGs, et son évaluation en qualité audio avec un test perceptif. Nous montrons également qu’un système de vérification du locuteur ne parvient pas à identifier le locuteur source après la conversion, même si le modèle a été entraîné sur des données synthétiques.

pdf bib abs
Voix enfantines, genre et classe sociale : une étude de la fréquence fondamentale
Erwan Pépiot

Cette étude porte sur les productions d’enfants francophones francilien•nes âgé•es de 8 à 10 ans, en lecture et en parole semi-spontanée. Deux groupes ont été enregistrés : des élèves d’une école privée favorisée (10 filles et 8 garçons), et des enfants scolarisés dans une école publique défavorisée (8 filles et 10 garçons). La F0 moyenne et la modulation de F0 ont été analysées. Les filles présentent une F0 moyenne significativement plus élevée que les garçons dans les deux écoles. La différence étant légèrement plus marquée chez les enfants de l’école favorisée. Aucune corrélation significative n’a été trouvée entre la taille des locuteur•rices et leur F0 moyenne. La modulation de F0 est significativement plus élevée chez les filles au sein de l’école favorisée, mais très similaire entre les deux genres dans l’école défavorisée. Indépendamment du genre, la modulation de F0 est plus forte chez les enfants issus de milieu favorisé.

pdf bib abs
iHist et iScatter, outils en ligne d’exploration interactive de données : application aux valeurs aberrantes de f0 et de formants
Nicolas Audibert

Les mesures aberrantes d’un point de vue statistique (outliers) doivent être traitées avec précaution, ce qui peut être compliqué en pratique lorsque la quantité de données devient importante. Afin de faciliter l’inspection des valeurs situées à la marge des distributions, nous proposons deux outils développés avec R/Shiny, disponibles sous forme d’applications en ligne utilisables par des non-spécialistes et distribués gratuitement sous licence GPL. Ces applications permettent de paramétrer la visualisation et d’explorer de façon interactive des distributions via des histogrammes, et les relations entre variables quantitatives via des nuages de points. Deux cas d’utilisation appliqués à des données de parole sont présentés pour illustrer les principales fonctionnalités de ces outils, à partir de mesures acoustiques extraites par Praat : l’ajustement des valeurs limites pour la détection automatique de la fréquence fondamentale, et l’identification de valeurs erronées de formants.

bib (full) Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position

pdf bib abs
À propos des difficultés de traduire automatiquement de longs documents
Ziqian Peng | Rachel Bawden | François Yvon

Les nouvelles architectures de traduction automatique sont capables de traiter des segments longs et de surpasser la traduction de phrases isolées, laissant entrevoir la possibilité de traduire des documents complets. Pour y parvenir, il est nécessaire de surmonter un certain nombre de difficultés liées à la longueur des documents à traduire. Dans cette étude, nous discutons de la traduction des documents sous l’angle de l’évaluation, en essayant de répondre à une question simple: comment mesurer s’il existe une dégradation des performances de traduction avec la longueur des documents ? Nos analyses, qui évaluent des systèmes encodeur-décodeur et un grand modèle de langue à l’aune de plusieurs métriques sur une tâche de traduction de documents scientifiques suggèrent que traduire les documents longs d’un bloc reste un problème difficile.

pdf bib abs
Approches cascade et de bout-en-bout pour la traduction automatique de la parole en pictogrammes
Cécile Macaire | Chloé Dion | Didier Schwab | Benjamin Lecouteux | Emmanuelle Esperança-Rodier

La traduction automatique de la parole en pictogrammes (Parole-à-Pictos) est une nouvelle tâche du Traitement Automatique des Langues (TAL) ayant pour but de proposer une séquence de pictogrammes à partir d’un énoncé oral. Cet article explore deux approches distinctes : (1) en cascade, qui combine un système de reconnaissance vocale avec un système de traduction, et (2) de bout-en-bout, qui adapte un système de traduction automatique de la parole. Nous comparons différentes architectures état de l’art entraînées sur nos propres données alignées parole-pictogrammes. Nous présentons une première évaluation automatique des systèmes et réalisons une évaluation humaine pour analyser leur comportement et leur impact sur la traduction en pictogrammes. Les résultats obtenus mettent en évidence la capacité d’une approche en cascade à générer des traductions acceptables à partir de la parole lue et dans des contextes de la vie quotidienne.

pdf bib abs
Au-delà de la performance des modèles : la prédiction de liens peut-elle enrichir des graphes lexico-sémantiques du français ?
Hee-Soo Choi | Priyansh Trivedi | Mathieu Constant | Karën Fort | Bruno Guillaume

Cet article présente une étude sur l’utilisation de modèles de prédiction de liens pour l’enrichissement de graphes lexico-sémantiques du français. Celle-ci porte sur deux graphes, RezoJDM16k et RL-fr et sept modèles de prédiction de liens. Nous avons étudié les prédictions du modèle le plus performant, afin d’extraire de potentiels nouveaux triplets en utilisant un score de confiance que nous avons évalué avec des annotations manuelles. Nos résultats mettent en évidence des avantages différentspour le graphe dense RezoJDM16k par rapport à RL-fr, plus clairsemé. Si l’ajout de nouveaux triplets à RezoJDM16k offre des avantages limités, RL-fr peut bénéficier substantiellement de notre approche.

pdf bib abs
CQuAE : Un nouveau corpus de question-réponse pour l’enseignement
Thomas Gerald | Louis Tamames | Sofiane Ettayeb | Patrick Paroubek | Anne Vilnat

Dans cet article nous présentons un nouveau corpus de question-réponse en français pour le domaine de l’éducation. Ce corpus à été construit dans le but de créer un système d’assistant virtuel pour répondre à des questions sur des documents ou du matériel de cours. Afin d’être utile autant aux enseignants qu’au étudiants, il est important de considérer des questions complexes ainsi que d’être capable de justifier les réponses sur du matériel validé. Nous présentons donc le nouveau Corpus CQuAE, un corpus de question-réponse manuellement annoté dont nous discutons des propriétés. Nous présenterons aussi les différentes étapes de sa création avec aujourd’hui une phase d’amélioration des données.Enfin, nous présentons plusieurs expériences pour évaluer l’exploitation du corpus dans le cadre d’un système de question-réponse automatique.Ces différentes analyses et expériences nous permettrons de valider l’adéquation des données collectés pour l’objectif visé.

pdf bib abs
Évaluation automatique des biais de genre dans des modèles de langue auto-régressifs
Fanny Ducel | Aurélie Névéol | Karën Fort

Nous proposons un outil pour mesurer automatiquement les biais de genre dans des textes générés par des grands modèles de langue dans des langues flexionnelles. Nous évaluons sept modèles à l’aide de 52 000 textes en français et 2 500 textes en italien, pour la rédaction de lettres de motivation. Notre outil s’appuie sur la détection de marqueurs morpho-syntaxiques de genre pour mettre au jour des biais. Ainsi, les modèles favorisent largement la génération de masculin : le genre masculin est deux fois plus présent que le féminin en français, et huit fois plus en italien. Les modèles étudiés exacerbent également des stéréotypes attestés en sociologie en associant les professions stéréotypiquement féminines aux textes au féminin, et les professions stéréotypiquement masculines aux textes au masculin.

pdf bib abs
Évaluation de la Similarité Textuelle : Entre Sémantique et Surface dans les Représentations Neuronales
Julie Tytgat | Guillaume Wisniewski | Adrien Betrancourt

La mesure de la similarité entre textes, qu’elle soit basée sur le sens, les caractères ou la phonétique, est essentielle dans de nombreuses applications. Les réseaux neuronaux, en transformant le texte en vecteurs, offrent une méthode pratique pour évaluer cette similarité. Cependant, l’utilisation de ces représentations pose un défi car les critères sous-jacents à cette similarité ne sont pas clairement définis, oscillant entre sémantique et surface. Notre étude, basée sur des expériences contrôlées, révèle que les différences de surface ont un impact plus significatif que les différences de sémantique sur les mesures de similarité entre les représentations neuronales des mots construites par de nombreux modèles pré-entrainés. Ces résultats soulèvent des questions sur la nature même de la similarité mesurée par les modèles neuronaux et leurs capacités à capturer les nuances sémantiques.

pdf bib abs
Extraction des arguments d’événements à partir de peu d’exemples par méta-apprentissage
Aboubacar Tuo | Romaric Besançon | Olivier Ferret | Julien Tourille

Les méthodes d’apprentissage avec peu d’exemples pour l’extraction d’événements sont développées pour réduire le coût d’annotation des données. Cependant, la plupart des études sur cette tâche se concentrent uniquement sur la détection des déclencheurs d’événements et aucune étude n’a été proposée sur l’extraction d’arguments dans un contexte de méta-apprentissage. Dans cet article, nous étudions l’extraction d’arguments d’événements avec peu d’exemples en exploitant des réseaux prototypiques et en considérant la tâche comme un problème de classification de relations. De plus, nous proposons d’améliorer les représentations des relations en injectant des connaissances syntaxiques dans le modèle par le biais de réseaux de convolution sur les graphes. Nos évaluations montrent que cette approche obtient de bonnes performances sur ACE 2005 dans plusieurs configurations avec peu d’exemples et soulignent l’importance des connaissances syntaxiques pour cette tâche.

pdf bib abs
Les petits modèles sont bons : une étude empirique de classification dans un contexte zero-shot
Pierre Lepagnol | Thomas Gerald | Sahar Ghannay | Christophe Servan | Sophie Rosset

Ce travail s’inscrit dans le débat sur l’efficacité des grands modèles de langue par rapport aux petits pour la classification de texte par amorçage (prompting). Nous évaluons ici le potentiel des petits modèles de langue dans la classification de texte sans exemples, remettant en question la prédominance des grands modèles. À travers un ensemble diversifié de jeux de données, notre étude compare les petits et les grands modèles utilisant différentes architectures et données de pré-entraînement. Nos conclusions révèlent que les petits modèles peuvent générer efficacement des étiquettes et, dans certains contextes, rivaliser ou surpasser les performances de leurs homologues plus grands. Ce travail souligne l’idée que le modèle le plus grand n’est pas toujours le meilleur, suggérant que les petits modèles économes en ressources peuvent offrir des solutions viables pour des défis spécifiques de classification de données

pdf bib abs
Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire
Léandre Adam-Cuvillier | Pierre-Jean Larpin | Antoine Simoulin

Nous présentons une étude pour mieux identifier comment les stéréotypes se reflètent dans les modèles de langue français. Nous adaptons le jeu de données StereoSet à la langue française et suivons le même protocole expérimental que celui utilisé pour l’anglais. Alors que les stéréotypes sont connus pour évoluer en fonction des contextes culturels et temporels, notre étude identifie des similitudes avec les résultats observés pour l’anglais, notamment en ce qui concerne la corrélation entre les capacités linguistiques des modèles et la présence de biais mesurables. Nous étendons notre étude en examinant des architectures de réseaux neuronaux similaires pré-entraînées sur des corpus linguistiques différents. Nos résultats mettent en évidence l’impact crucial des données de pré-entraînement sur les biais constatés dans les modèles français. De plus, nous observons que l’utilisation de corpus multilingues pour le pré-entraînement peut avoir un effet positif sur l’atténuation des biais.

pdf bib abs
Méta-apprentissage pour l’analyse AMR translingue
Jeongwoo Kang | Maximin Coavoux | Cédric Lopez | Didier Schwab

L’analyse AMR multilingue consiste à prédire des analyses sémantiques AMR dans une langue cible lorsque les données d’entraînement ne sont disponibles que dans une langue source. Cette tâche n’a été étudiée que pour un petit nombre de langues en raison du manque de données multilingues. En s’inspirant de Langedijk et al. (2022), qui appliquent le méta-apprentissage à l’analyse syntaxique en dépendances translingue, nous étudions le méta-apprentissage pour l’analyse AMR translingue. Nous évaluons nos modèles dans des scénarios zero-shot et few-shot en croate, en farsi, en coréen, en chinois et en français. En particulier, nous développons dans le cadre de cet article des données d’évaluation en coréen et en croate, à partir du corpus AMR anglais Le Petit Prince. Nous étudions empiriquement cette approche en la comparant à une méthode classique d’apprentissage conjoint.

pdf bib abs
Recherche de relation à partir d’un seul exemple fondée sur un modèle N-way K-shot : une histoire de distracteurs
Hugo Thomas | Guillaume Gravier | Pascale Sébillot

La recherche de relation à partir d’un exemple consiste à trouver dans un corpus toutes les occurrences d’un type de relation liant deux entités dans une phrase, nommé type cible et caractérisé à l’aide d’un seul exemple. Nous empruntons le scénario d’entraînement et évaluation N-way K-shot à la tâche de classification de relations rares qui prédit le type de relation liant deux entités à partir de peu d’exemples d’entraînement, et l’adaptons à la recherche de relation avec un exemple. Lors de l’évaluation, un modèle entraîné pour la classification de relations en N-way K-shot est utilisé, dans lequel K vaut un pour le type cible, une des N classes (du N-way) représente le type cible, et les N-1 classes restantes sont des distracteurs modélisant la classe de rejet. Les résultats sur FewRel et TACREV démontrent l’efficacité de notre approche malgré la difficulté de la tâche. L’étude de l’évolution des performances en fonction du nombre de distracteurs et des stratégies de leur choix met en avant une bonne configuration globale, à savoir un nombre élevé de distracteurs à une distance intermédiaire du type de relation cible dans l’espace latent appris par le modèle. Le diagnostic a posteriori de notre méthode révèle l’existence de configurations optimales pour chaque type cible que nos analyses actuelles échouent à caractériser, ouvrant la voie à de futurs travaux.

pdf bib abs
Reconnaissance d’entités cliniques en few-shot en trois langues
Marco Naguib | Aurélie Névéol | Xavier Tannier

Les grands modèles de langage deviennent la solution de choix pour de nombreuses tâches de traitement du langage naturel, y compris dans des domaines spécialisés où leurs capacités few-shot devraient permettre d’obtenir des performances élevées dans des environnements à faibles ressources. Cependant, notre évaluation de 10 modèles auto-régressifs et 16 modèles masqués montre que, bien que les modèles auto-régressifs utilisant des prompts puissent rivaliser en termes de reconnaissance d’entités nommées (REN) en dehors du domaine clinique, ils sont dépassés dans le domaine clinique par des taggers biLSTM-CRF plus légers reposant sur des modèles masqués. De plus, les modèles masqués ont un bien moindre impact environnemental que les modèles auto-régressifs. Ces résultats, cohérents dans les trois langues étudiées, suggèrent que les modèles à apprentissage few-shot ne sont pas encore adaptés à la production de REN dans le domaine clinique, mais pourraient être utilisés pour accélérer la création de données annotées de qualité.

pdf bib abs
Réduction des répétitions dans la Traduction Automatique Neuronale
Marko Avila | Anna Rebollo | Josep Crego

Actuellement, de nombreux systèmes TAL utilisent des décodeurs neuronaux pour la génération de textes, qui font preuve d’une capacité impressionnante à générer des textes approchant les niveaux de fluidité humaine. Toutefois, dans le cas des réseaux de traduction automatique, ils sont souvent confrontés à la production de contenu répétitif, également connu sous le nom de diction répétitive ou de répétition de mots, un aspect pour lequel ils n’ont pas été explicitement entraînés. Bien que cela ne soit pas intrinsèquement négatif, cette répétition peut rendre l’écriture monotone ou maladroite si elle n’est pas utilisée intentionnellement pour l’emphase ou des fins stylistiques. La répétition de mots a été traitée par des méthodes post-hoc pendant l’inférence, contraignant le réseau à examiner des hypothèses auxquelles le système avait initialement attribué une plus faible probabilité. Dans cet article, nous implémentons une méthode qui consiste à pénaliser les répétitions lors de l’apprentissage et qui s’inspire des principes du label smoothing. Conformément à cette méthode, nous modifions la distribution de la vérité terrain afin d’orienter le modèle de manière à décourager ces répétitions. Les résultats de nos expériences montrent que les méthodes proposées permettent de contrôler le problème de la répétition dans les moteurs neuronaux de traduction automatique sans compromis en termes d’efficacité ou de qualité des traductions.

pdf bib abs
Régression logistique parcimonieuse pour l’extraction automatique de règles de grammaire
Santiago Herrera | Caio Corro | Sylvain Kahane

Nous proposons une nouvelle approche pour extraire et explorer des motifs grammaticaux à partir de corpus arborés, dans le but de construire des règles de grammaire syntaxique. Plus précisément, nous nous intéressons à deux phénomènes linguistiques, l’accord et l’ordre des mots, en utilisant un espace de recherche étendu et en accordant une attention particulière au classement des règles. Pour cela, nous utilisons un classifieur linéaire entraîné avec une pénalisation L1 pour identifier les caractéristiques les plus saillantes. Nous associons ensuite des informations quantitatives à chaque règle. Notre méthode permet de découvrir des règles de différentes granularités, certaines connues et d’autres moins. Dans ce travail, nous nous intéressons aux règles issues d’un corpus du français.

pdf bib abs
SEC : contexte émotionnel phrastique intégré pour la reconnaissance émotionnelle efficiente dans la conversation
Barbara Gendron | Gaël Guibon

L’essor des modèles d’apprentissage profond a apporté une contribution significative à la reconnaissance des émotions dans les conversations (ERC). Cependant, cette tâche reste un défi important en raison de la pluralité et de la subjectivité des émotions humaines. Les travaux antérieurs sur l’ERC fournissent des modèles prédictifs utilisant principalement des représentations de la conversation basées sur des graphes. Dans ce travail, nous proposons une façon de modéliser le contexte conversationnel que nous incorporons à une stratégie d’apprentissage de métrique, avec un processus en deux étapes. Cela permet d’effectuer l’ERC dans un scénario de classification flexible et d’obtenir un modèle léger et efficace. En utilisant l’apprentissage de métrique à travers une architecture de réseau siamois, nous obtenons un score de macroF1 de 57,71 pour la classification des émotions dans les conversations sur le jeu de données DailyDialog, ce qui surpasse les travaux connexes. Ce résultat état-de-l’art est prometteur en ce qui concerne l’utilisation de l’apprentissage de métrique pour la reconnaissance des émotions, mais est perfectible au regard du microF1 obtenu.

pdf bib abs
Une approche par graphe pour l’analyse syntaxique en dépendances de bout en bout de la parole
Adrien Pupier | Maximin Coavoux | Benjamin Lecouteux | Jérôme Goulian

Effectuer l’analyse syntaxique du signal audio –plutôt que de passer par des transcriptions de l’audio– est une tache récemment proposée par Pupier et al. (2022), dans le but d’incorporer de l’information prosodique dans le modèle d’analyse syntaxique et de passer outre les limitations d’une approche cascade qui consisterait à utiliser un système de reconnaissance de la parole (RAP) puis un analyseur syntaxique. Dans cet article, nous effectuons un ensemble d’expériences visant à comparer les performances de deux familles d’analyseurs syntaxiques (i) l’approche par graphe (ii) la réduction à une tâche d’étiquetage de séquence ; directement sur la parole. Nous évaluons notre approche sur un corpus arboré du Français parlé. Nous montrons que (i) l’approche par graphe obtient de meilleurs résultats globalement (ii) effectuer l’analyse syntaxique directement depuis la parole obtient de meilleurs résultats qu’une approche par cascade de systèmes, malgré 30 de paramètre en moins

pdf bib abs
Vers la traduction automatique des néologismes scientifiques
Paul Lerner | François Yvon

La recherche scientifique découvre et invente continuellement de nouveaux concepts qui sont alors désignés par de nouveaux termes, des néologismes, ou néonymes dans ce contexte. Puisque les publications se font très majoritairement en anglais, diffuser ces nouvelles connaissances en français demande souvent de traduire ces termes, afin d’éviter de multiplier les anglicismes qui sont moins facilement compréhensibles pour le grand public. Nous proposons d’explorer cette tâche à partir de deux thésaurus en exploitant la définition du terme afin de le traduire plus fidèlement. Pour ce faire, nous explorons les capacités de deux grands modèles de langue multilingues, BLOOM et CroissantLLM, qui parviennent à traduire des néologismes scientifiques dans une certaine mesure. Nous montrons notamment qu’ils utilisent souvent des procédés morphosyntaxiques appropriés mais sont limités par la segmentation en unités sous-lexicales et biaisés par la fréquence d’occurrences des termes ainsi que par des similarités de surface entre l’anglais et le français.

pdf bib abs
WikiFactDiff: Un Grand jeu de données Réaliste et Temporellement Adaptable pour la Mise à Jour Atomique des Connaissances Factuelles dans les Modèles de Langue Causaux
Hichem Ammar Khodja | Frédéric Béchet | Quentin Brabant | Alexis Nasr | Gwénolé Lecrové

La factualité des modèles de langue se dégrade avec le temps puisque les événements postérieurs à leur entraînement leur sont inconnus. Une façon de maintenir ces modèles à jour pourrait être la mise à jour factuelle à l’échelle de faits atomiques. Pour étudier cette tâche, nous présentons WikiFactDiff, un jeu de données qui représente les changements survenus entre deux dates sous la forme d’un ensemble de faits simples, sous format RDF, divisés en trois catégories : les faits à apprendre, les faits à conserver et les faits obsolètes. Ces faits sont verbalisés afin de permettre l’exécution des algorithmes de mise à jour et leur évaluation, qui est présentée dans ce document. Contrairement aux jeux de données existants, WikiFactDiff représente un cadre de mise à jour réaliste qui implique divers scénarios, notamment les remplacements de faits, leur archivage et l’insertion de nouvelles entités.

pdf bib abs
Adaptation des modèles de langue à des domaines de spécialité par un masquage sélectif fondé sur le genre et les caractéristiques thématiques
Anas Belfathi | Ygor Gallina | Nicolas Hernandez | Laura Monceaux | Richard Dufour

Les modèles de langue pré-entraînés ont permis de réaliser des avancées significatives dans diverses tâches de traitement automatique du langage naturel (TALN).Une des caractéristiques des modèles reposant sur une architecture Transformeur concerne la stratégie de masquage utilisée pour capturer les relations syntaxiques et sémantiques inhérentes à une langue. Dans les architectures de type encodeur, comme par exemple BERT, les mots à masquer sont choisis aléatoirement. Cette stratégie ne tient néanmoins pas compte des caractéristiques linguistiques spécifiques à un domaine.Dans ce travail, nous proposons de réaliser un masquage sélectif des mots en fonction de leur saillance thématique dans les documents dans lesquels ils se produisent et de leur spécificité au genre de document.Les performances des modèles résultant d’un pré-entraînement continu dans le domaine juridique soulignent l’efficacité de notre approche sur le benchmark LexGLUE en langue anglaise.

pdf bib abs
Améliorer la traduction au niveau du document grâce au sur-echantillage négatif et au masquage ciblé
Gaëtan Caillaut | Mariam Nakhlé | Jingshu Liu | Raheel Qader

Ces travaux visent à améliorer les capacités des systèmes de traduction automatique à tenir compte du contexte dans lequel se trouve la phrase source, et donc, ultimement, à améliorer les performances globales des systèmes de traduction automatique. L’approche que nous proposons repose uniquement sur les données et la manière dont elles sont fournies au modèle durant l’entraînement et est complètement agnostique de l’architecture du modèle. Nous montrons que les performances des modèles de traduction, sur la paire en-fr, peuvent être améliorées simplement en fournissant des données plus pertinentes vis-à-vis de la tâche cible, et ce sans modifier ni complexifier les architectures existantes, en particulier l’architecture Transformer couramment utilisée par les systèmes de TAL modernes. Pour ce faire, nous présentons deux stratégies d’augmentation de données (sur-échantillonnage négatif et masquage ciblé) conçues pour inciter le modèle à s’appuyer sur le contexte. Nous montrons, au travers de métriques appropriées, que ces méthodes permettent d’améliorer les performances des systèmes de traduction sans pour autant modifier ni l’architecture du modèle, ni le processus d’entraînement.

pdf bib abs
Améliorer les modèles de langue pour l’analyse des émotions : perspectives venant des sciences cognitives
Constant Bonard | Gustave Cortal

Nous proposons d’exploiter les recherches en sciences cognitives sur les émotions et la communication pour améliorer les modèles de langue pour l’analyse des émotions. Tout d’abord, nous présentons les principales théories des émotions en psychologie et en sciences cognitives. Puis, nous présentons les principales méthodes d’annotation des émotions en traitement automatique des langues et leurs liens avec les théories psychologiques. Nous présentons aussi les deux principaux types d’analyses de la communication des émotions en pragmatique cognitive. Enfin, en s’appuyant sur les recherches en sciences cognitives présentées, nous proposons des pistes pour améliorer les modèles de langue pour l’analyse des émotions. Nous suggérons que ces recherches ouvrent la voie à la construction de nouveaux schémas d’annotation et d’un possible benchmark pour la compréhension émotionnelle, prenant en compte différentes facettes de l’émotion et de la communication chez l’humain.

pdf bib abs
Analyse de la perception de l’offre INTERCITÉS de jour : Classification multi-étiquettes des émotions dans les tweets
Chang Liu | Hélène Flamein | Luce Lefeuvre | Fanny Hanen

La Direction Marketing de SNCF Voyageurs INTERCITÉS souhaite améliorer l’expérience des voyageurs en procédant à l’analyse automatique de la perception de son offre à travers les ressentis partagés sur les réseaux sociaux. L’un des axes de notre recherche se focalise sur la détection des émotions en multi-étiquettes qui traduisent cette perception. Pour accomplir cette tâche, nous ajustons tout d’abord un modèle de langue pré-entraîné à l’aide d’un corpus préalablement annoté en émotions, puis nous le spécialisons sur notre corpus, axé sur le contexte ferroviaire d’INTERCITÉS. Notre approche obtient un F1-Micro score de 0,55, un F1-Macro score de 0,44 et une exactitude de 0,826.

pdf bib abs
Approche multitâche pour l’amélioration de la fiabilité des systèmes de résumé automatique de conversation
Eunice Akani | Benoit Favre | Frederic Bechet | Romain Gemignani

Le résumé de dialogue consiste à générer un résumé bref et cohérent d’une conversation ou d’un dialogue entre deux ou plusieurs locuteurs. Même si les modèles de langue les plus récents ont permis des progrès remarquables dans ce domaine, générer un résumé fidèle au dialogue de départ reste un défi car cela nécessite de prendre en compte l’interaction entre les locuteurs pour conserver les informations les plus pertinentes du dialogue. Nous nous plaçons dans le cadre des dialogues humain-humain avec but. Ce cadre nous permet d’intégrer des informations relatives à la tâche dans le cadre du résumé de dialogue afin d’aider le système à générer des résumés plus fidèles sémantiquement. Nous évaluons dans cette étude des approches multitâches permettant de lier la tâche de résumé à des tâches de compréhension du langage comme la détection de motifs d’appels. Les informations liées à la tâche nous permettent également de proposer des nouvelles méthodes de sélection de résumés basées sur l’analyse sémantique du dialogue ainsi que des métriques d’évaluation basées également sur cette même analyse. Nous avons testé ces méthodes sur DECODA, un corpus français de dialogue collecté dans le centre d’appel de la RATP entre des usagers et des téléconseillers. Nous montrons que l’ajout d’informations liées à la tâche augmente la fiabilité des résumés générés.

pdf bib abs
Auto-correction et oracle dynamique : certains effets n’apparaissent qu’à taille réduite
Fang Zhao | Timothée Bernard

Nous étudions l’effet de la capacité d’auto-correction, de l’utilisation d’un oracle dynamique et de la taille du modèle, sur la performance d’un analyseur joint (morpho)syntaxe/sémantique. Nous montrons qu’avec un modèle de taille réduite, la possibilité d’auto-correction est nuisible en sémantique mais bénéfique en syntaxe, tandis que l’utilisation d’un oracle dynamique augmente la performance en sémantique. Nous constatons également que ces effets sont souvent atténués pour des modèles de taille plus importante.

pdf bib abs
Construction d’une mesure de similarité thématique non supervisée pour les conversations
Amandine Decker | Maxime Amblard

La structure thématique d’une conversation représente la manière dont l’interaction est organisée à un niveau plus global que le strict enchaînement des interventions. Elle permet de comprendre comment la cohérence est maintenue sur le temps de l’échange. La création d’une mesure de similarité thématique qui donne un score de similarité à deux énoncés du point de vue thématique pourrait nous permettre de produire et d’analyser ces structures. Nous entraînons une mesure non supervisée, basée sur le modèle BERT avec prédiction de la phrase suivante, sur des conversations Reddit. La structure de Reddit nous fournit différents niveaux de proximité de cohérence entre des paires de messages, ce qui nous permet d’entraîner notre modèle avec une fonction de perte basée sur des comparaisons plutôt que sur des valeurs numériques attendues a priori. Cette mesure nous permet de trouver des ensembles d’interventions localement cohérents dans nos conversations Reddit, mais aussi de mesurer la variabilité en termes de thème tout au long d’une conversation.

Cet article présente deux ressources récemment développées pour explorer l’interface prosodie-syntaxe en pidgin nigérian, une langue à faibles ressources d’Afrique de l’Ouest. La première est un treebank intonosyntaxique dans laquelle chaque token est associé à une série de caractéristiques prosodiques au niveau de la syllabe, ce qui permet d’analyser diverses structures syntaxiques et prosodiques en utilisant une même interface. La seconde est un système de synthèse de la parole entraîné sur le même ensemble de données, conçu pour permettre un contrôle direct sur les contours intonatifs de la parole générée. Cet outil a été développé pour nous permettre de tester les hypothèses formulées à partir de l’exploration du treebank. Cet article est largement une adaptation de deux publications récentes présentant chaque outil, avec un accent sur leur interconnexion dans notre recherche en cours.

pdf bib abs
Étude des facteurs de complexité des modèles de langage dans une tâche de compréhension de lecture à l’aide d’une expérience contrôlée sémantiquement
Elie Antoine | Frederic Bechet | Géraldine Damnati | Philippe Langlais

Cet article propose une méthodologie pour identifier les facteurs de complexité inhérents aux tâches de traitement automatique du langage (TAL), indépendamment de la dimension des modèles. Il montre que la performance inférieure de certains exemples est attribuable à des facteurs de complexités spécifiques. Plutôt que de procéder à des évaluations générales, nous préconisons des évaluations restreintes portant sur des tâches, des ensembles de données et des langues spécifiques, décrites de manière linguistique. Appliquée à une tâche de compréhension de texte via un corpus de questions-réponses, notre méthode met en évidence des facteurs de complexité sémantique affectant divers modèles de tailles et d’architectures différentes. En outre, nous proposons plusieurs corpus de complexité sémantique croissante dérivés de ces facteurs, avançant que l’optimisation de leur traitement dépasse la simple augmentation de la taille des modèles.

pdf bib abs
Évaluation de l’apport des chaînes de coréférences pour le liage d’entités
Léo Labat | Lauriane Aufrant

Ce travail propose de revisiter les approches de liage d’entités au regard de la tâche très prochequ’est la résolution de coréférence. Nous observons en effet différentes configurations (appuyéespar l’exemple) où le reste de la chaîne de coréférence peut fournir des indices utiles pour améliorerla désambiguïsation. Guidés par ces motivations théoriques, nous menons une analyse d’erreursaccompagnée d’expériences oracles qui confirment le potentiel de stratégies de combinaison deprédictions au sein de la chaîne de coréférence (jusqu’à 4.3 F1 sur les mentions coréférentes en anglais). Nousesquissons alors une première preuve de concept de combinaison par vote, en explorant différentesheuristiques de pondération, qui apporte des gains modestes mais interprétables.

pdf bib abs
Extension d’AZee avec des règles de production concernant les gestes non-manuels pour la langue des signes française
Camille Challant | Michael Filhol

Cet article présente une étude sur les gestes non-manuels (GNM) en utilisant AZee, une approche qui permet de représenter formellement des discours en langue des signes (LS) et de les animer avec un signeur virtuel. Les GNM étant essentiels en LS et donc nécessaires à une synthèse de qualité,notre objectif est d’augmenter l’ensemble de règles de production AZee avec des règles concernant les GNM. Pour cela, nous avons appliqué la méthodologie permettant de trouver de nouvelles règles de production sur un corpus de langue des signes française, 40 brèves. 23 règles concernant les GNM ont été identifiées. Nous avons profité de cette étude pour insérer ces règles dans le premier corpus d’expressions AZee, qui décrivent avec AZee les productions en LS du corpus 40 brèves. Notre étude donne lieu a une nouvelle version du corpus d’expressions AZee, qui comporte 533 occurrences de règles relatives aux GNM.

pdf bib abs
Extraction d’entités nommées décrivant des chaînes de traitement bioinformatiques dans des articles scientifiques en anglais
Clémence Sebe | Sarah Cohen-Boulakia | Olivier Ferret | Aurélie Névéol

Les chaînes de traitement d’analyses de données biologiques utilisées en bioinformatique sont une solution pour la portabilité et la reproductibilité des analyses. Ces chaînes figurent à la fois sous forme descriptive dans des articles scientifiques et/ou sous forme de codes dans des dépôts. L’identification de publications scientifiques décrivant de nouvelles chaînes de traitement et l’extraction de leurs informations sont des enjeux importants pour la communauté bioinformatique. Nous proposons ici d’étendre le corpus BioToFlow ayant trait aux articles décrivant des chaînes de traitement bioinformatiques et de l’utiliser pour entraîner et évaluer des modèles de reconnaissance d’entités nommées bioinformatiques. Ce travail est accompagné d’une discussion critique portant à la fois sur le processus d’annotation du corpus et sur les résultats de l’extraction d’entités.

pdf bib abs
Génération contrôlée de cas cliniques en français à partir de données médicales structurées
Hugo Boulanger | Nicolas Hiebel | Olivier Ferret | Karën Fort | Aurélie Névéol

La génération de texte ouvre des perspectives pour pallier l’absence de corpus librement partageables dans des domaines contraints par la confidentialité, comme le domaine médical. Dans cette étude, nous comparons les performances de modèles encodeurs-décodeurs et décodeurs seuls pour la génération conditionnée de cas cliniques en français. Nous affinons plusieurs modèles pré-entraînés pour chaque architecture sur des cas cliniques en français conditionnés par les informations démographiques des patient·es (sexe et âge) et des éléments cliniques.Nous observons que les modèles encodeur-décodeurs sont plus facilement contrôlables que les modèles décodeurs seuls, mais plus coûteux à entraîner.

pdf bib abs
L’impact de genre sur la prédiction de la lisibilité du texte en FLE
Lingyun Gao | Rodrigo Wilkens | Thomas François

Cet article étudie l’impact du genre discursif sur la prédiction de la lisibilité des textes en français langue étrangère (FLE) à travers l’intégration de méta-informations du genre discursif dans les modèles de prédiction de la lisibilité. En utilisant des architectures neuronales basées sur CamemBERT, nous avons comparé les performances de modèles intégrant l’information de genre à celles d’un modèle de base ne considérant que le texte. Nos résultats révèlent une amélioration modeste de l’exactitude globale lors de l’intégration du genre, avec cependant des variations notables selon les genres spécifiques de textes. Cette observation semble confirmer l’importance de prendre en compte les méta-informations textuelles tel que le genre lors de la conception de modèles de lisibilité et de traiter le genre comme une information riche à laquelle le modèle doit accorder une position préférentielle.

This project evaluates the potential of LLM and dynamic corpora to generate contexts ai- med at the practice and acquisition of specialised English vocabulary. We compared reference contexts—handpicked by expert teachers—for a specialised vocabulary list to contexts generated by three recent large language models (LLM) of different sizes (Mistral-7B-Instruct, Vicuna-13B, and Gemini 1.0 Pro) and to contexts extracted from articles web-crawled from specialised websites. The comparison uses a representative set of length-based, morphosyntactic, semantic, and discourse- related textual characteristics. We conclude that the LLM-based corpora can be combined effectively with a web-crawled one to form an academic corpus characterised by appropriate complexity and textual variety.

pdf bib abs
La reconnaissance automatique des relations de cohérence RST en français.
Martial Pastor | Erik Bran Marino | Nelleke Oostdijk

Les parseurs de discours ont suscité un intérêt considérable dans les récentes applications de traitement automatique du langage naturel. Cette approche dépasse les limites traditionnelles de la phrase et peut s’étendre pour englober l’identification de relation de discours. Il existe plusieurs parseurs spécialisés dans le traitement autmatique du discours, mais ces derniers ont été principalement évalués sur des corpus anglais. Par conséquent, il n’est pas évident de bien cerner les éléments linguistiques importants sur lesquels les parseurs se basent pour classifier les relations de discours en dehors de l’anglais. Cet article évalue les performances du parseur DMRST sur le corpus RST-DT traduit en français. Nous constatons que les performances de classification des relations de discours en français sont comparables à celles obtenues pour d’autres langues. En analysant les succès et échecs de la classification des relations, nous soulignons l’impact des marqueurs de discours et des structures syntaxiques sur la précision du parseur.

We present the MEETING corpus, a dataset of roughly 95 hours of spontaneous meeting-style conversations in French. The corpus is designed to serve as a foundation for downstream tasks such as meeting summarization. In its current state, it offers 25 hours of manually corrected transcripts that are aligned with the audio signal, making it a valuable resource for evaluating ASR and speaker recognition systems. It also includes automatic transcripts and alignments of the whole corpus which can be used for downstream NLP tasks. The aim of this paper is to describe the conception, production and annotation of the corpus up to the transcription level as well as to provide statistics that shed light on the main linguistic features of the corpus.

Nous présentons la famille de modèles Claire, une collection de modèles de langage conçus pour améliorer les tâches nécessitant la compréhension des conversations parlées, tel que le résumé de réunions. Nos modèles résultent de la poursuite du pré-entraînement de deux modèles de base exclusivement sur des transcriptions de conversations et des pièces de théâtre. Aussi nous nous concentrons sur les données en français afin de contrebalancer l’accent mis sur l’anglais dans la plupart des corpus d’apprentissage. Cet article décrit le corpus utilisé, l’entraînement des modèles ainsi que leur évaluation. Les modèles, les données et le code qui en résultent sont publiés sous licences ouvertes, et partagés sur Hugging Face et GitHub.

pdf bib abs
Modéliser la facilité d’écoute en FLE : vaut-il mieux lire la transcription ou écouter le signal vocal ?
Minami Ozawa | Rodrigo Wilkens | Kaori Sugiyama | Thomas François

Le principal objectif de cette étude est de proposer un modèle capable de prédire automatiquement le niveau de facilité d’écoute de documents audios en français. Les données d’entrainement sont constituées d’enregistrements audios accompagnés de leurs transcriptions et sont issues de manuels de FLE dont le niveau est évalué sur l’échelle du Cadre européen commun de référence (CECR). Nous comparons trois approches différentes : machines à vecteurs de support (SVM) combinant des variables de lisibilité et de fluidité, wav2vec et CamemBERT. Pour identifier le meilleur modèle, nous évaluons l’impact des caractéristiques linguistiques et prosodiques ainsi que du style de parole(dialogue ou monologue) sur les performances. Nos expériences montrent que les variables de fluidité améliorent la précision du modèle et que cette précision est différente par style de parole. Enfin, les performances de tous les modèles varient selon les niveaux du CECR.

pdf bib abs
Optimisation des performances d’un système de reconnaissance automatique de la parole pour les commentaires sportifs: fine-tuning de Whisper
Camille Lavigne | Alex Stasica | Anna Kupsc

Malgré les performances élevées des systèmes automatiques de reconnaissance de la parole (Automatic Speech Recognition ; ASR) sur des corpus généraux, leur efficacité est considérablement réduite lorsqu’ils sont confrontés à des corpus spécialisés. Ces corpus peuvent notamment contenir du lexique propre à des domaines spécifiques, des accents ou du bruit de fond rendant la transcription ardue. Cette étude vise à évaluer les avantages de l’optimisation d’une transcription automatique, par opposition à manuelle, après fine-tuning d’un modèle d’ASR de dernière génération, Whisper (Radford et al., 2023), sur un corpus spécialisé de commentaires sportifs de petite taille. Nos analyses quantitatives et qualitatives indiquent que Whisper est capable d’apprendre les particularités d’un corpus de spécialité, atteignant des performances égales où supérieures aux transcripteurs humains, avec cette quantité de données limitée. Cette recherche met en lumière le rôle que l’intelligence artificielle, notamment les larges modèles de langage, peut jouer pour faciliter la création de corpus spécialisés.

pdf bib abs
Optimiser le choix des exemples pour la traduction automatique augmentée par des mémoires de traduction
Maxime Bouthors | Josep Crego | François Yvon

La traduction neuronale à partir d’exemples s’appuie sur l’exploitation d’une mémoire de traduction contenant des exemples similaires aux phrases à traduire. Ces exemples sont utilisés pour conditionner les prédictions d’un décodeur neuronal. Nous nous intéressons à l’amélioration du système qui effectue l’étape de recherche des phrases similaires, l’architecture du décodeur neuronal étant fixée et reposant ici sur un modèle explicite d’édition, le Transformeur multi-Levenshtein. Le problème considéré consiste à trouver un ensemble optimal d’exemples similaires, c’est-à-dire qui couvre maximalement la phrase source. En nous appuyant sur la théorie des fonctions sous-modulaires, nous explorons de nouveaux algorithmes pour optimiser cette couverture et évaluons les améliorations de performances auxquels ils mènent pour la tâche de traduction automatique.

pdf bib abs
ParaPLUIE - une mesure automatique d’évaluation de la qualité sémantique des systèmes de paraphrases
Quentin Lemesle | Jonathan Chevelu | Damien Lolive | Arnaud Delhay-Lorrain | Philippe Martin

L’évaluation des systèmes de production automatique de paraphrases est une tâche difficile car elle implique, entre autre, d’évaluer la proximité sémantique entre deux phrases. Les mesures traditionnelles s’appuient sur des distances lexicales, ou au mieux des alignements de plongements sémantiques. Dans cet article nous étudions certaines de ces mesures sur des corpus de paraphrases et de non-paraphrases reconnus pour leurs qualités ou difficultés sur cette tâche. Nous proposons une nouvelle mesure, ParaPLUIE, s’appuyant sur l’utilisation d’un grand modèle de langue. D’après nos expériences, celui-ci est plus à même de trier les paires de phrases par proximité sémantique.

pdf bib abs
Prédiction de la complexité lexicale : Une étude comparative entre ChatGPT et un modèle dédié à cette tâche.
Abdelhak Kelious | Mathieu Constant | Christophe Coeur

Cette étude s’intéresse à la prédiction de la complexité lexicale. Nous explorons des méthodesd’apprentissage profond afin d’évaluer la complexité d’un mot en se basant sur son contexte. Plusspécifiquement, nous examinons comment utiliser des modèles de langue pré-entraînés pour encoderle mot cible et son contexte, en les combinant avec des caractéristiques supplémentaires basées sur lafréquence. Notre approche obtient de meilleurs résultats que les meilleurs systèmes de SemEval-2021(Shardlow et al., 2021). Enfin, nous menons une étude comparative avec ChatGPT afin d’évaluer sonpotentiel pour prédire la complexité lexicale en comparaison avec un modèle dédié à cette tâche.

pdf bib abs
Quel workflow pour les sciences du texte ?
Antoine Widlöcher

Le triomphe des approches adossées à des méthodes d’apprentissage, dans de nombreuses branches de notre discipline, tend à occulter une part importante des domaines d’investigation pourtant intimement liée au traitement automatique des langues. Nous proposerons, pour commencer, de faire un pas dans la direction opposée, en faveur de ce que nous nommerons ici les sciences du texte, en les distinguant de l’ingénierie de la langue, dont l’omniprésence explique largement cette occultation. Nous voudrions ensuite contribuer à mettre en évidence la méthode propre à cette branche des savoirs, méthode commune pouvant permettre de faire sortir de l’isolement des travaux hétérogènes liés par un même rapport au texte. Nous voudrions enfin nous concentrer sur la phase de ce workflow qui demeure actuellement la plus difficile, celle de l’expérimentation sur corpus, et proposer un cadre pour la mise en place d’environnements d’expérimentation appropriés.

pdf bib abs
Repérage et caractérisation automatique des émotions dans des textes : traiter aussi leurs modes d’expression indirects
Aline Etienne | Delphine Battistelli | Gwénolé Lecorvé

Cet article présente un modèle capable de prédire (A) si une phrase contient l’expression d’une émotion, (B) selon quel(s) mode(s) cette émotion est exprimée, (C) si elle est basique ou complexe, et (D) quelle est sa catégorie exacte. Notre principale contribution est d’intégrer le fait qu’une émotion puisse s’exprimer selon différents modes : depuis un mode direct, essentiellement lexicalisé, jusqu’à un mode plus indirect, où des émotions vont être seulement suggérées, mode dont les approches en TAL ne tiennent généralement pas compte. Nos expériences sur des textes en français pour les enfants mènent à des résultats tout à fait acceptables en comparaison de ce sur quoi des annotateurs humains experts en psycholinguistique s’accordent et à des résultats meilleurs que ceux produits par GPT-3.5 via du prompting. Ceci offre une perspective intéressante de prise en compte des émotions comme facteur d’analyse automatique de la complexité dans les textes, cadre plus général de nos travaux.

pdf bib abs
TCFLE-8 : un corpus de productions écrites d’apprenants de français langue étrangère et son application à la correction automatisée de textes
Rodrigo Wilkens | Alice Pintard | David Alfter | Vincent Folny | Thomas François

La correction automatisée de textes (CAT) vise à évaluer automatiquement la qualité de textes écrits. L’automatisation permet une évaluation à grande échelle ainsi qu’une amélioration de la cohérence, de la fiabilité et de la normalisation du processus. Ces caractéristiques sont particulièrement importantes dans le contexte des examens de certification linguistique. Cependant, un goulot d’étranglement majeur dans le développement des systèmes CAT est la disponibilité des corpus. Dans cet article, nous visons à encourager le développement de systèmes de correction automatique en fournissant le corpus TCFLE-8, un corpus de 6~569 essais collectés dans le contexte de l’examen de certification Test de Connaissance du Français (TCF). Nous décrivons la procédure d’évaluation stricte qui a conduit à la notation de chaque essai par au moins deux évaluateurs selon l’échelle du Cadre européen commun de référence pour les langues (CECR) et à la création d’un corpus équilibré. Nous faisons également progresser les performances de l’état de l’art pour la tâche de CAT en français en expérimentant deux solides modèles de référence.

pdf bib abs
Technologies de la parole et données de terrain : le cas du créole haïtien
William N. Havard | Renauld Govain | Daphne Gonçalves Teixeira | Benjamin Lecouteux | Emmanuel Schang

Nous utilisons des données de terrain en créole haïtien, récoltées il y a $40$ ans sur cassettes puis numérisées, pour entraîner un modèle natif d’apprentissage auto-supervisé (SSL) de la parole (Wav2Vec2) en haïtien. Nous utilisons une approche de pré-entraînement continu (CPT) sur des modèles SSL pré-entraînés de deux langues étrangères : la langue lexificatrice – le français – et une langue non apparentée – l’anglais. Nous comparons les performances de ces trois modèles SSL, et de deux autres modèles SSL étrangers directement affinés, sur une tâche de reconnaissance de la parole. Nos résultats montrent que le modèle le plus performant est celui qui a été entraîné en utilisant une approche CPT sur la langue lexificatrice, suivi par le modèle natif. Nous concluons que l’approche de ”mobilisation des archives” préconisée par (Bird, 2020) est une voie prometteuse pour concevoir des technologies vocales pour de nouvelles langues.

pdf bib abs
Utiliser l’explicabilité des modèles pour mettre en évidence les expressions genrées dans la parole
François Buet | Camille Guinaudeau | Cyril Grouin | Sahar Ghannay | Shin’Ichi Satoh

Dans de nombreux pays, des études ont souligné la sous-représentation des femmes dans les médias.Mais au-delà du déséquilibre quantitatif se pose la question de l’asymétrie qualitative des représentations des hommes et des femmes.Comment automatiser l’évaluation des contenus et des traits saillants spécifiques aux discours masculins et féminins ?Nous proposons dans cette étude d’exploiter les connaissances acquises par un modèle de classification entraîné à la détection du genre sur des transcriptions automatiques, afin de mettre en évidence des motifs distinctifs du discours masculin ou féminin.Notre approche est basée sur l’utilisation de méthodes développées pour l’intelligence artificielle explicable (IAX), afin de calculer des scores d’attribution au niveau des unités.

Afin de favoriser une éducation inclusive, des systèmes automatiques capables d’adapter les manuels scolaires pour les rendre accessibles aux enfants en situation de handicap sont nécessaires. Dans ce contexte, nous proposons de classifier les images associées aux exercices selon trois classes (Essentielle, Informative et Inutile) afin de décider de leur intégration ou non dans la version accessible du manuel pour les enfants malvoyants. Sur un ensemble de données composé de 652 paires (texte, image), nous utilisons des approches monomodales et multimodales à l’état de l’art et montrons que les approches fondées sur le texte obtiennent les meilleurs résultats. Le modèle CamemBERT atteint ainsi une exactitude de 85,25% lorsqu’il est combiné avec des stratégies de gestion de données déséquilibrées. Pour mieux comprendre la relation entre le texte et l’image dans les exercices des manuels, nous effectuons également une analyse qualitative des résultats obtenus avec et sans la modalité image et utilisons la méthode LIME pour expliquer la décision de nos modèles.

pdf bib abs
astroECR : enrichissement d’un corpus astrophysique en entités nommées, coréférences et relations sémantiques
Atilla Kaan Alkan | Felix Grezes | Cyril Grouin | Fabian Schüssler | Pierre Zweigenbaum

Le manque de ressources annotées constitue un défi majeur pour le traitement automatique de la langue en astrophysique. Afin de combler cette lacune, nous présentons astroECR, une extension du corpus TDAC (Time-Domain Astrophysics Corpus). Notre corpus, constitué de 300 rapports d’observation en anglais, étend le schéma d’annotation initial de TDAC en introduisant cinq classes d’entités nommées supplémentaires spécifiques à l’astrophysique. Nous avons enrichi les annotations en incluant les coréférences, les relations sémantiques entre les objets célestes et leurs propriétés physiques, ainsi qu’en normalisant les noms d’objets célestes via des bases de données astronomiques. L’utilité de notre corpus est démontrée en fournissant des scores de référence à travers quatre tâches~: la reconnaissance d’entités nommées, la résolution de coréférences, la détection de relations, et la normalisation des noms d’objets célestes. Nous mettons à disposition le corpus ainsi que son guide d’annotation, les codes sources, et les modèles associés.

bib (full) Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès

pdf bib abs
Apport de la structure de tours à l’identification automatique de genre textuel: un corpus annoté de sites web de tourisme en français
Remi Cardon | Trang Tran Hanh Pham | Julien Zakhia Doueihi | Thomas François

Ce travail étudie la contribution de la structure de tours à l’identification automatique de genres textuels. Ce concept – bien connu dansle domaine de l’analyse de genre – semble être peu exploité dans l’identification automatique du genre. Nous décrivons la collecte d’un corpus de sites web francophones relevant du domaine du tourisme et le processus d’annotation avec les informations de tours. Nous menons des expériences d’identification automatique du genre de texte avec notre corpus. Nos résultats montrent qu’ajouter l’information sur la structure de tours dans un modèle améliore ses performances pour l’identification automatique du genre, tout en réduisant le volume de données nécessaire et le besoin en ressource de calcul.

pdf bib abs
Caractérisation de la ville du futur dans un corpus de science-fiction
Sami Guembour | Chuanming Dong | Catherine Dominguès

Ce résumé présente le travail de recherche détaillé dans l’article (Guembour et al., 2023). Ce travail s’intègre au projet PARoles de VIlleS (PARVIS, https://parvis.hypotheses.org/) ; il se concentre sur la caractérisation de la ville du futur dans un corpus de romans de science-fiction et de fictions climatiques constitué par l’équipe PARVIS, en utilisant des techniques de traitement automatique des langues. L’objectif est d’analyser les images de la ville du futur à travers les éléments qu’elle contient(lieux, objets urbains, etc.) et les fonctions qui leur sont associées. Cependant, tous les romans du corpus ne parlent pas de la ville, d’où la nécessité d’identifier ceux dans lesquels elle constitue le cadre dans lequel s’intègrent l’action et les personnages. Pour cela, une ressource terminologique (Topalov et al., 2010) permettant d’identifier les éléments spécifiques de la ville a été utilisée. Elle regroupe 533 mots, en majorité des noms, désignés par la forme OOC (abréviation de ”Object Of the City” pour ”Objets de la ville”). Un algorithme de clustering fondé sur les fréquences des OOC dans les romans est utilisé pour identifier ceux de la ville, et ainsi construire un nouveau corpus qui est spécifique à la ville. Les OOC ayant permis de construire ce nouveau corpus n’ont pas tous les mêmes fréquences et donc pas le même poids dans la description de la ville du futur. Un algorithme de co-clustering a été appliqué sur les fréquences des OOC dans le nouveau corpus afin d’identifier ceux ayant un poids important dans la description de la ville ; ces derniers sont appelés OOC discriminants. Un parseur de dépendance syntaxique est ensuite mis en oeuvre sur les phrases du nouveau corpus afin d’extraire les fonctions (verbes) associées aux OOC discriminants. Des algorithmes de clustering (et des techniques de réduction de dimension pour la visualisation des résultats) sont ensuite utilisés de manière itérative sur les cinq fonctions les plus fréquentes de chaque OOC discriminant pour regrouper ces OOC afin d’identifier d’éventuelles fonctions nouvelles ou anciennes associées à des OOC (anciens ou nouveaux objets de la ville). Les résultats montrent que la ville du futur (dans le corpus PARVIS), comme celle d’aujourd’hui, vise à répondre principalement à deux problématiques principales : la circulation et l’habitation.

Les études existantes sur la parole en interaction naturelle se sont principalement concentrées sur les deux extrémités du spectre développemental, c’est-à-dire la petite enfance et l’âge adulte, laissant un vide dans nos connaissances sur la manière dont se déroule le développement, en particulier pendant l’age scolaire (6 à 11 ans). Le travail actuel contribue à combler cette lacune en introduisant un corpus développemental de conversations entre enfants et parents à domicile, impliquant des groupes d’enfants âgés de 7, 9 et 11 ans dont la langue maternelle est le français. Chaque dyade a été enregistrée deux fois: une fois en face-à-face et une fois en utilisant des appels vidéo par ordinateur. Pour les paramètres en face-à-face, nous avons capitalisé sur les progrès récents en matière de technologie de suivi oculaire mobile et de détection des mouvements de la tête pour optimiser le caractère naturel des enregistrements, nous permettant d’obtenir à la fois des données précises et écologiquement valides. De plus, nous avons contourné les difficultés de l’annotation manuelle en nous appuyant, dans la mesure du possible, sur des outils automatiques de traitement de la parole et de vision par ordinateur. Enfin, pour démontrer la richesse de ce corpus pour l’étude du développement communicatif de l’enfant, nous fournissons des analyses préliminaires comparant plusieurs mesures de la dynamique conversationnelle entre l’enfant et le parent selon l’âge, la modalité et le support communicatif. Nous espérons que le travail actuel ouvrira la voie à de futures découvertes sur les propriétés et les mécanismes du développement communicatif multimodal pendant l’age scolaire de l’enfant.

pdf bib abs
Évaluer les modèles de langue pré-entraînés avec des propriétés de hiérarchie
Jesus Lovon-Melgarejo | Jose G Moreno | Romaric Besançon | Olivier Ferret | Lynda Tamine

Étant donné que les modèles de langue pré-entraînés (PLM) constituent la pierre angulaire des modèles de recherche d’informations les plus récents, la façon dont ils encodent la connaissance sémantique est particulièrement importante.Cependant, on s’est peu intéressé à la capacité des PLM à capturer la connaissance sémantique hiérarchique. Traditionnellement, l’évaluation de ces connaissances codées dans les PLM s’appuie sur leurs performances lors d’évaluations dépendantes de la tâche, basées sur des tâches proxy telles que la détection d’hyperonymes.Malheureusement, cette approche ignore potentiellement d’autres relations taxonomiques implicites et complexes.Dans ce travail, nous proposons une méthode d’évaluation indépendante de la tâche, capable d’évaluer dans quelle mesure les PLM peuvent capturer des relations taxonomiques complexes, telles que les ancêtres et les frères et sœurs.Cette évaluation, basée sur des propriétés intrinsèques capturant ces relations, montre que les connaissances lexico-sémantiques codées implicitement dans les PLM ne capturent pas toujours les relations hiérarchiques. Nous démontrons en outre que les propriétés proposées peuvent être injectées dans les PLM pour améliorer leur compréhension de la hiérarchie. Grâce à des évaluations portant sur la reconstruction de taxonomies, la découverte d’hyperonymes et la compréhension de lecture, nous montrons que la connaissance de la hiérarchie est modérément transférable entre les tâches, mais pas de manière systématique.Ceci est le résumé de l’article “Probing Pretrained Language Models with Hierarchy Properties” publié à ECIR 2024.

Les architectures d’apprentissage automatique reposant sur la définition de traits linguistiques ont connu un succès important dans le domaine de l’évaluation automatique de la lisibilité des textes (ARA) et ont permis de faire se rencontrer informatique et théorie psycholinguistique. Toutefois, les récents développements se sont tournés vers l’apprentissage profond et les réseaux de neurones. Dans cet article, nous cherchons à réconcilier les deux approches. Nous présentons une comparaison systématique de 6 architectures hybrides (appliquées à plusieurs langues et publics) que nous comparons à ces deux approches concurrentes. Les diverses expériences réalisées ont clairement mis en évidence deux méthodes d’hybridation : Soft-Labeling et concaténation simple. Ces deux architectures sont également plus efficaces lorsque les données d’entraînement sont réduites. Cette étude est la première à comparer systématiquement différentes architectures hybrides et à étudier leurs performances dans plusieurs tâches de lisibilité.

Les modèles de langue préentraînés (PLM) constituent aujourd’hui de facto l’épine dorsale de la plupart des systèmes de traitement automatique des langues. Dans cet article, nous présentons Jargon, une famille de PLMs pour des domaines spécialisés du français, en nous focalisant sur trois domaines : la parole transcrite, le domaine clinique / biomédical, et le domaine juridique. Nous utilisons une architecture de transformeur basée sur des méthodes computationnellement efficaces(LinFormer) puisque ces domaines impliquent souvent le traitement de longs documents. Nous évaluons et comparons nos modèles à des modèles de l’état de l’art sur un ensemble varié de tâches et de corpus d’évaluation, dont certains sont introduits dans notre article. Nous rassemblons les jeux de données dans un nouveau référentiel d’évaluation en langue française pour ces trois domaines. Nous comparons également diverses configurations d’entraînement : préentraînement prolongé en apprentissage autosupervisé sur les données spécialisées, préentraînement à partir de zéro, ainsi que préentraînement mono et multi-domaines. Nos expérimentations approfondies dans des domaines spécialisés montrent qu’il est possible d’atteindre des performances compétitives en aval, même lors d’un préentraînement avec le mécanisme d’attention approximatif de LinFormer. Pour une reproductibilité totale, nous publions les modèles et les données de préentraînement, ainsi que les corpus utilisés.

Les modèles espace-état constituent une alternative peu coûteuse en termes de complexité de calcul aux transformeurs pour le codage de longues séquences et la capture de longues dépendances. Nous proposons LOCOST: une architecture encodeur-décodeur basée sur des modèles espace-état pour la génération de textes conditionnels avec de longues entrées contextuelles. Avec une complexité de calcul de O(L log L), cette architecture peut traiter des séquences beaucoup plus longues que les modèles de référence qui sont basés sur des modèles d’attention parcimonieux. Nous évaluons notre modèle sur une série de tâches de résumé abstractif de longs documents. Le modèle atteint un niveau de performance qui est 93-96 comparable aux transformeurs parcimonieux les plus performants de la même taille tout en économisant jusqu’à 50 de mémoire pendant l’apprentissage et jusqu’à 87 pendant l’inférence. En outre, LOCOST traite efficacement les entrées dépassant 600K tokens au moment de l’inférence, établissant de nouveaux résultats de référence sur le résumé de livre complet et ouvrant de nouvelles perspectives pour le traitement des entrées longues.

pdf bib abs
La subjectivité dans le journalisme québécois et belge : transfert de connaissance inter-médias et inter-cultures
Louis Escouflaire | Antonin Descampe | Antoine Venant | Cédrick Fairon

Cet article s’intéresse à la capacité de transfert des modèles de classification de texte dans le domaine journalistique, en particulier pour distinguer les articles d’opinion des articles d’information. A l’ère du numérique et des réseaux sociaux, les distinctions entre ces genres deviennent de plus en plus floues, augmentant l’importance de cette tâche de classification. Un corpus de 80 000 articles de presse provenant de huit médias, quatre québécois et quatre belges francophones, a été constitué. Pour identifier les thèmes des articles, une clusterisation a été appliquée sur les 10 000 articles issus de chaque média, assurant une distribution équilibrée des thèmes entre les deux genres opinion et information. Les données ont ensuite été utilisées pour entraîner (ou peaufiner) et évaluer deux types de modèles : CamemBERT (Martin et al., 2019), un modèle neuronal pré-entraîné, et un modèle de régression logistique basé sur des traits textuels. Dix versions différentes de chaque modèle sont entraînées : 8 versions mono-médias’, chacune peaufinée sur l’ensemble d’entraînement du sous-corpus correspondant à un média, et deux versions multi-médias’, l’une peaufinée sur 8000 articles québécois, l’autre sur les articles belges. Les résultats montrent que les modèles CamemBERT surpassent significativement les modèlesstatistiques en termes de capacité de transfert (voir Figures 1 et 2). Les modèles CamemBERT montrent une plus grande exactitude, notamment sur les ensembles de test du même média que celui utilisé pour l’entraînement. Cependant, les modèles entraînés sur Le Journal de Montréal(JDM) sont particulièrement performants même sur d’autres ensembles de test, suggérant une distinction plus claire entre les genres journalistiques dans ce média. Les modèles CamemBERT multi-médias affichent également de bonnes performances. Le modèle québécois notamment obtient les meilleurs résultats en moyenne, indiquant qu’une diversité de sources améliore la généricité du modèle. Les modèles statistiques (mono- et multi-médias) montrent des performances globalement inférieures, avec des variations significatives selon les médias. Les textes québécois sont plus difficiles à classer pour ces modèles, suggérant des différences culturelles dans les pratiques journalistiques entre le Québec et la Belgique. L’analyse des traits révèle que l’importance de certains éléments textuels, comme les points d’exclamation et les marqueurs de temps relatifs, varient considérablement entre les modèles entraînés sur différents médias. Par exemple, les éditoriaux du JDM utilisent fréquemment des points d’exclamation, reflétant un style plus affirmé et polarisant. En revanche, les articles de La Presse présentent des particularités qui compliquent la généralisation de la tâche. En sommme, cette étude démontre la supériorité des modèles neuronaux comme CamemBERT pour la classification de textes journalistiques, notamment grâce à leur capacité de transfert, bien que les modèles basés sur des traits se distinguent par la transparence de leur raisonnement’. Elle met également en lumière des différences significatives entre les cultures journalistiques québécoises et belges.

pdf bib abs
Le corpus BrainKT: Etudier l’instanciation du common ground par l’analyse des indices verbaux, gestuels et neurophysiologiques
Eliot Maës | Thierry Legou | Leonor Becerra-Bonache | Philippe Blache

La quantité croissante de corpus multimodaux collectés permet de développer de nouvelles méthodes d’analyse de la conversation. Dans la très grande majorité des cas, ces corpus ne comprennent cependant que les enregistrements audio et vidéo, laissant de côté d’autres modalités plus difficiles à récupérer mais apportant un point de vue complémentaire sur la conversation, telle que l’activité cérébrale des locuteurs. Nous présentons donc BrainKT, un corpus de conversation naturelle en français, rassemblant les données audio, vidéo et signaux neurophysiologiques, collecté avec l’objectif d’étudier en profondeur les transmission d’information et l’instanciation du common ground. Pour chacune des conversations des 28 dyades (56 participants), les locuteurs devaient collaborer sur un jeu conversationnel (15min), et étaient ensuite libres de discuter du sujet de leur choix (15min). Pour chaque discussion, les données audio, vidéo, l’activité cérébrale (EEG par Biosemi 64) et physiologique (montre Empatica-E4) sont enregistrées. Cet article situe le corpus dans la littérature, présente le setup expérimental utilisé ainsi les difficultés rencontrées, et les différents niveaux d’annotations proposés pour le corpus.

pdf bib abs
Rééquilibrer la distribution des labels tout en éliminant le temps d’attente inhérent dans l’apprentissage actif multi-label appliqué aux transformers
Maxime Arens | Jose G Moreno | Mohand Boughanem | Lucile Callebert

L’annotation des données est cruciale pour l’apprentissage automatique, notamment dans les domaines techniques, où la qualité et la quantité des données annotées affectent significativement l’efficacité des modèles entraînés. L’utilisation de personnel humain est coûteuse, surtout lors de l’annotation pour la classification multi-label, les instances pouvant être associées à plusieurs labels.L’apprentissage actif (AA) vise à réduire les coûts d’annotation en sélectionnant intelligemment des instances pour l’annotation, plutôt que de les annoter de manière aléatoire. L’attention récente portée aux transformers a mis en lumière le potentiel de l’AA dans ce contexte.Cependant, dans des environnements pratiques, la mise en œuvre de l’AA rencontre des défis pratiques. Notamment, le temps entre les cycles d’AA n’est pas mis à contribution par les annotateurs. Pour résoudre ce problème, nous examinons des méthodes alternatives de sélection d’instances, visant à maximiser l’efficacité de l’annotation en s’intégrant au processus de l’AA. Nous commençons par évaluer deux méthodes existantes, en utilisant respectivement un échantillonnage aléatoire et des informations de cycle d’AA périmées. Ensuite, nous proposons notre méthode novatrice basée sur l’annotation des instances pour rééquilibrer la distribution des labels. Notre approche atténue les biais, améliore les performances du modèle (jusqu’à une amélioration de 23 sur le score F1), réduit les disparités dépendantes de la stratégie (diminution d’environ 50 sur l’écart type) et diminue le déséquilibre des libellés (diminution de 30 sur le ratio moyen de déséquilibre).

La génération de textes neuronaux fait l’objet d’une grande attention avec la publication de nouveaux outils tels que ChatGPT. La principale raison en est que la qualité du texte généré automatiquement peut être attribuée à un$cdot$e rédacteurice humain$cdot$e même quand l’évaluation est faite par un humain. Dans cet article, nous proposons un nouveau corpus en français et en anglais pour la tâche d’identification de textes générés automatiquement et nous menons une étude sur la façon dont les humains perçoivent ce texte. Nos résultats montrent, comme les travaux antérieurs à l’ère de ChatGPT, que les textes générés par des outils tels que ChatGPT partagent certaines caractéristiques communes mais qu’ils ne sont pas clairement identifiables, ce qui génère des perceptions différentes de ces textes par l’humain.

La traduction automatique de la parole vers des pictogrammes peut faciliter la communication entre des soignants et des personnes souffrant de troubles du langage. Cependant, il n’existe pas de formalisme de traduction établi, ni d’ensembles de données accessibles au public pour l’entraînement de systèmes de traduction de la parole vers des pictogrammes. Cet article présente le premier ensemble de données alignant de la parole, du texte et des pictogrammes. Ce corpus comprend plus de 230 heures de parole. Nous discutons de nos choix pour créer une grammaire adaptée à des séquences de pictogrammes. Cette dernière s’articule autour de règles et d’un vocabulaire restreint. La grammaire résulte d’une étude linguistique approfondie des ressources extraites du site Web d’ARASAAC. Nous avons ensuite validé ces règles à l’issue de multiples phases de post-édition par des annotateurs experts. Le corpus proposé est ensuite utilisé pour entraîner un système en cascade traduisant la parole vers des pictogrammes. L’ensemble du corpus est disponible gratuitement sur le site web d’Ortolang sous une licence non commerciale. Il s’agit d’un point de départ pour la recherche portant sur la traduction automatique de la parole vers des pictogrammes.

pdf bib abs
Une approche zero-shot pour localiser les transferts d’informations en conversation naturelle
Eliot Maës | Hossam Boudraa | Philippe Blache | Leonor Becerra-Bonache

Les théories de l’interaction suggèrent que l’émergence d’une compréhension mutuelle entre les locuteurs en conversation naturelle dépend de la construction d’une base de connaissances partagée (common ground), mais n’explicitent ni le choix ni les circonstances de la mémorisation de ces informations.Des travaux antérieurs utilisant les métriques dérivées de la théorie de l’information pour analyser la dynamique d’échange d’information ne fournissent pas de moyen efficace de localiser les informations qui entreront dans le common ground. Nous proposons une nouvelle méthode basée sur la segmentation automatique d’une conversation en thèmes qui sont ensuite résumés. L’emplacement des transferts d’informations est finalement obtenu en calculant la distance entre le résumé du thème et les différents énoncés produits par un locuteur. Nous évaluons deux grands modèles de langue (LLMs) sur cette méthode, sur le corpus conversationnel français Paco-Cheese. Plus généralement, nous étudions la façon dont les derniers développement dans le champ des LLMs permettent l’étude de questions s’appuyant normalement fortement sur le jugement d’annotateurs humains.

bib (full) Actes de la 26ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues

pdf bib abs
An evaluation of current benchmarking strategies for French biomedical language models
Felix Herron

We describe the current state of benchmarking for French language biomedical natural language processing (NLP). We note two important criteria in biomedical benchmarking: first, that a biomedical benchmark clearly simulate a specific use cases, in order to offer a useful evaluation of a biomedical model’s real life applicability. Second: that a biomedical benchmark be created in collaboration with biomedical professionals. We note that many biomedical benchmarks, particularly in French, do not adhere to these criteria; however, we highlight other biomedical benchmarks which adhere better to those criteria. Furthermore, we evaluate some of the most common French biomedical benchmarks on an array of models and empirically support the necessity of domain-specific and language-specific pre-training for natural language understanding (NLU) tasks. We show that some popular French biomedical language models perform poorly and/or inconsistently on important biomedical tasks. Finally, we advocate for an increase in publicly available, clinically targeted French biomedical NLU benchmarks.

pdf bib abs
Analyse sémantique du corpus des Cahiers citoyens
Sami Guembour

Cet article présente une recherche originale qui se concentre sur une analyse sémantique du corpus des Cahiers citoyens, qui regroupe les contributions et les doléances des citoyens français déposées au niveau des mairies dans le cadre du Grand Débat National. L’article offre un état de l’art complet sur les divers travaux réalisés sur ce corpus et vise à obtenir une compréhension approfondie des thèmes émergents et des préoccupations citoyennes dans les différentes régions. Plusieurs hypothèses concernant ces travaux ont été émises, et différentes méthodes ont été proposées pour répondre à ces hypothèses, de la segmentation et du pré-traitement du corpus au calcul des vecteurs de plongement des phrases à l’aide de modèles de langues pré-entraînés, aboutissant au clustering de ces vecteurs pour construire des regroupements en fonction des problématiques abordées.

pdf bib abs
Annotation de la continuité référentielle dans un corpus scolaire – premiers résultats
Martina Barletta

La recherche Scolinter s’intéresse à l’étude des compétences en écriture des élèves de l’école primaire en France, en Italie et en Espagne. Le corpus éponyme se présente comme un large corpus longitudinal d’écrits d’élèves comparables dans les trois langues (Ponton et al., 2021). Il s’agit dans cette recherche de créer un outillage TAL applicable à ce type de corpus pour assister les chercheurs dans la description linguistique des phénomènes qui relèvent de la cohésion et de la cohérence textuelle, en particulier de la continuité référentielle. La première étape de cette recherche a consisté dans la conception d’un modèle et dans le choix d’un format d’annotation répondant à ces objectifs. Cette contribution fera tout d’abord un état des recherches sur l’annotation en anaphore, coréférence et continuité référentielle avant de présenter les spécificités du corpus Scolinter et de proposer des pistes méthodologiques pour la suite du travail.

pdf bib abs
État de l’art des méthodes de génération automatique de listes de lectures
Julien Aubert-Béduchaud

L’augmentation croissante du volume d’articles scientifique rend difficile la montée en compétence des chercheurs sur un domaine de recherche ciblé. Pour faciliter l’accès à ces articles, diverses approches et tâches en recherche d’information ont été développées ces dernières années. Parmi elles, la tâche de génération automatique de listes de lecture a été récemment étudiée dans la littérature.Elle consiste en la génération d’une liste ordonnée d’articles scientifiques couvrant un domaine de recherche spécifique. Plusieurs travaux ont exploré différents aspects de cette tâche, proposant des jeux de données et des méthodologies d’évaluation variées pour apporter des solutions à ce problème.Dans cet article, nous présentons un état de l’art des principales approches de génération de listes de lecture, incluant les données, méthodes, et métriques d’évaluation

pdf bib abs
Évaluation de mesures d’accord sur des structures relationnelles par la dégradation contrôlée d’annotations
Antoine Boiteau

Les mesures d’accord inter-annotateurs sont essentielles pour évaluer la qualité des annotations humaines sur les corpus. Dans le cadre des structures relationnelles, la question de la qualité et de l’interprétabilité de ces mesures reste cependant ouverte. Cet article présente l’adaptation d’un outil déjà utilisé pour d’autres paradigmes d’annotation dont le but est de générer de manière contrôlée des annotations artificielles erronées. Les annotations obtenues sont fournies à des mesures d’accord adaptées aux structures relationnelles, permettant l’identification des comportements des mesures ainsi que les différences entre elles.

pdf bib abs
Géométrie des vecteurs de tâches pour l’association et la combinaison de modèles
Loic Fosse

Les adaptations de rang faible (LoRa) sont devenues un standard pour adapter des modèles à un faible coût. Elles sont de plus en plus utilisées que ce soit en traitement du langage ou des images. Plusieurs études utilisent ces adaptations et cherchent à les combiner it a posteriori de manière à enrichir de manière additive les propriétés d’un modèle. Ces combinaisons suggèrent alors que nous pouvons associer les modèles dans l’espace des paramètres et que nous pouvons donner un sens à cela. Cette propriété n’est que très peu vérifiée dans la pratique et nous proposons ici plusieurs métriques visant à caractériser l’association entre les modèles dans l’espace des paramètres. Nous montrons finalement que nous pouvons corréler ces métriques avec les pertes de performance des modèles lorsque nous réalisons leurs combinaisons.

pdf bib abs
TAL et analyse de l’activité en ergonomie : extraction d’informations spécialisées dans des transcriptions d’entretiens
Andréa Blivet

L’ergonomie du travail est une discipline qui étudie les conditions de travail des individus. Son application se traduit, entre autres, par la réalisation d’entretiens d’analyse de l’activité qui ont pour objectif de faire émerger les impacts négatifs de la situation de travail sur la santé physique et morale des travailleurs. Notre étude consiste en la mise en place d’un système d’extraction automatique des informations relatives à ces impacts dans les transcriptions des entretiens réalisés. Ce système se fonde sur une approche hybride, associant ressources terminologiques et calcul de similarité contextuelle.

bib (full) Actes du Défi Fouille de Textes@TALN 2024

pdf bib
Actes du Défi Fouille de Textes@TALN 2024
Richard Dufour | Benoit Favre | Mickael Rouvier | Adrien Bazoge | Yanis Labrak

pdf bib abs
Tâches et systèmes de sélection automatique de réponses à des QCM dans le domaine médical : Présentation de la campagne DEFT 2024
Adrien Bazoge | Yanis Labrak | Richard Dufour | Benoit Favre | Mickael Rouvier

L’édition 2024 du DÉfi Fouille de Textes (DEFT) met l’accent sur le développement de méthodes pour la sélection automatique de réponses pour des questions à choix multiples (QCM) en français. Les méthodes sont évaluées sur un nouveau sous-ensemble du corpus FrenchMedMCQA, comprenant 3 105 questions fermées avec cinq options chacune, provenant des archives d’examens de pharmacie. Dans la première tâche, les participants doivent se concentrer sur des petits modèles de langue (PML) avec moins de 3 milliards de paramètres et peuvent également utiliser les corpus spécifiques au domaine médical NACHOS et Wikipedia s’ils souhaitent appliquer des approches du type Retrieval-Augmented Generation (RAG). La second tâche lève la restriction sur la taille des modèles de langue. Les résultats, mesurés par l’Exact Match Ratio (EMR), varient de 1,68 à 11,74 tandis que les performances selon le score de Hamming vont de 28,75 à 49,15 pour la première tâche. Parmi les approches proposées par les cinq équipes participantes, le meilleur système utilise une chaîne combinant un classifieur CamemBERT-bio pour identifier le type de question et un système RAG fondé sur Apollo 2B, affiné avec la méthode d’adaptation LoRA sur les données de l’année précédente.

pdf bib abs
Participation du CRIM à DEFT 2024 : Utilisation de petits modèles de Langue pour des QCMs dans le domaine médical
Ahmed Moubtahij | Charles-William Cummings | Azur Handan | Edith Galy | Eric Charton

Ce papier décrit le travail de l’équipe du CRIM (Centre de recherche en Informatique de Montréal) dans le cadre du Défi Fouille de textes 2024. Nous présentons les expériences que nous avons menées dans le cadre de la tâche principale consistant à identifier automatiquement, pour une question donnée issue d’annales d’examens de pharmacie, l’ensemble des réponses correctes parmi les cinq proposées. La contrainte est d’utiliser un système de moins de 3 milliards de paramètres dont les données d’entraînement sont connues. Pour ce faire, nous avons testé des approches impliquant du few-shot prompting, du RAG, de l’affinage et de la génération contrainte en dernier recours.

Ce papier explore deux approches pour répondre aux questions à choix multiples (QCM) de pharmacie du défi DEFT 2024 en utilisant des modèles de langue (LLMs) entraînés sur des données ouvertes avec moins de 3 milliards de paramètres. Les deux approches reposent sur l’architecture RAG (Retrieval Augmented Generation) pour combiner la récupération de contexte à partir de bases de connaissances externes (NACHOS et Wikipédia) avec la génération de réponses par le LLM Apollo-2B. La première approche traite directement les QCMs et génère les réponses en une seule étape, tandis que la seconde approche reformule les QCMs en questions binaires (Oui/Non) puis génère une réponse pour chaque question binaire. Cette dernière approche obtient un Exact Match Ratio de 14.7 et un Hamming Score de 51.6 sur le jeu de test, ce qui démontre le potentiel du RAG pour des tâches de Q/A sous de telles contraintes.

Cet article présente une série d’expériences sur la tâche de réponse à des questions à choix multiples de DEFT2024. En s’appuyant sur le corpus FrenchMedMCQA, nous avons mis en œuvre plusieurs approches, incluant des techniques de Récupération augmenté de modèle de langue pré entraîné (REALM).

Cet article décrit la participation de l’équipe Sorbonne-SNCF au Défi Fouille de Textes 2024, se concentrant sur la correction automatique de QCM en langue française. Le corpus, constitué de questions de pharmacologie, a été reformulé en assertions. Nous avons employé des techniques avancées de traitement du langage naturel pour traiter les réponses. Trois approches principales, NachosLLM, TTGV byfusion, et TTGV ollama multilabel, sont présentées avec des scores EMR respectifs de 2.94, 4.19 et 1.68. Les résultats obtenus montrent des niveaux de précision différents, en soulignant les limites des approches multi-étiquettes. Des suggestions d’amélioration incluent l’ajustement des modèles de langage et des critères de classification.

pdf bib abs
Flan-T5 avec ou sans contexte, telle est la question à choix multiples
Elias Okat | Hugo Brochelard | Aghilas Sini | Valérie Renault | Nathalie Camelin

Ce travail présente les systèmes développés par l’équipe LIUM-CREN pour l’atelier DEFT 2024. Nous avons participé à la tâche principale qui vise à inférer automatiquement les réponses correctes à des questions à choix multiples dans le domaine médical en utilisant le corpus FrenchMedMCQA. Nous avons soumis trois approches : (a) explorer l’espace de plongements afin de mettre en évidence les liens éventuels entre les questions et les réponses associées ; (b) utiliser la capacité de génération des modèles Text-To-Text tels que Flan-T5-Large pour générer les réponses correctes ; et (c) mettre en place une technique basique de Retrieval Augmented Generation (RAG) afin de fournir du contexte spécifique au modèle génératif Flan-T5-Large. Cet article vise à rapporter les résultats que nous avons obtenus et à étudier l’impact du contexte sur la capacité du Flan-T5 à inférer les réponses correctes.