Journées d'Etudes sur la Parole / Traitement Automatique de la Langue Naturelle / Rencontres des Etudiants Chercheurs en Informatique et Traitement Automatique des Langues (2016) - ACL Anthology

Journées d'Etudes sur la Parole / Traitement Automatique de la Langue Naturelle / Rencontres des Etudiants Chercheurs en Informatique et Traitement Automatique des Langues (2016)

Volumes

Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP 87 papers
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs) 24 papers
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters) 32 papers
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 3 : RECITAL 9 papers
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. Volume 4 : Conférences invitées 3 papers
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 5 : Démonstrations 20 papers

bib (full) Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP

Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 1 : JEP
Laurence Danlos | Thierry Hamon

Le VOT des éjectives : le cas du maya yucatèque (The VOT of ejective stops in Maya Yucatec)
Emre Bayraktar | Rachid Ridouane

Cet article présente une étude acoustique des occlusives éjectives du maya yucatèque. S’intéressant spécifiquement au voice onset time (VOT), l’étude examine d’une part si le VOT est un corrélat acoustique fiable de l’éjectivité dans cette langue et d’autre part si le VOT varie selon le lieu d’articulation et la hauteur vocalique. Les résultats, obtenus à partir des productions de deux locuteurs natifs, montrent que les éjectives ont un VOT plus long comparées à leurs contreparties pulmonaires. Parmi les éjectives, le VOT varie en fonction du lieu d’articulation, les vélaires présentant le VOT le plus long. De même une tendance pour un VOT plus court devant les voyelles hautes a été observée. Ces résultats soulèvent un ensemble de questions concernant les mécanismes qui sous-tendent les variations du VOT, notamment en lien avec les contraintes aérodynamiques en jeu lors de la production des occlusives éjectives.

Accommodation temporelle chez l’enfant dans une tâche de parole alternée (Children’s temporal accommodation in an alternated naming task)
Céline Hidalgo | Simone Falk | Daniele Schön

L’accommodation temporelle entre deux interlocuteurs est un phénomène qui émerge lors d’une interaction et qui jouerait un rôle important dans la fluidité des échanges. Cette étude examine cette capacité temporelle chez l’enfant âgé de 5 à 6 ans grâce au développement d’une nouvelle tâche de dénomination en alternance avec un partenaire virtuel. Les variables temporelles analysées sont le tempo de l’alternance (lent versus rapide) et la rythmicité des mots échangés (constante versus aléatoire). Les enfants sont plus précis dans la condition de tempo rapide et plus réguliers lorsque la rythmicité des listes de mots est maintenue constante. Ces résultats montrent 1) que la dénomination en alternance est un paradigme permettant de mesurer les capacités d’accommodation temporelle des enfants et que 2) dès 5 ans, les enfants peuvent ajuster leur parole à celle d’un agent. Ces données constituent une base pour mesurer les capacités linguistiques d’accommodation temporelle chez des populations cliniques.

Accès lexical et reconnaissance du voisement en voix chuchotée (Lexical acces and recognition of voicing in whisper)
Yohann Meynadier | Sophie Dufour

La reconnaissance du trait de voisement de consonnes obstruantes chuchotées en français a été examinée via un paradigme d’amorçage sémantique auditif-visuel. Un effet d’amorçage d’amplitude similaire à celui mesuré en voix modale a été observé uniquement lorsque l’obstruante du mot amorce chuchoté est sourde (dessert-CHOCOLAT). Aucun effet d’amorçage n’a été noté quand l’obstruante du mot amorce est voisée (désert) que ce soit sur le mot cible SABLE associé sémantique de désert ou sur le mot cible CHOCOLAT associé sémantique de dessert. Ainsi, même si certaines travaux ont mis en évidence qu’en voix chuchotée les consonnes obstruantes voisées maintiennent des traces phonétiques de leur identité sous-jacente, notre étude montre que ces consonnes sont ambigües pour l’auditeur et que leur reconnaissance n’est pas immédiate.

Acquisition et reconnaissance automatique d’expressions et d’appels vocaux dans un habitat. (Acquisition and recognition of expressions and vocal calls in a smart home)
Michel Vacher | Benjamin Lecouteux | Frédéric Aman | François Portet | Solange Rossato

Cet article présente un système capable de reconnaître les appels à l’aide de personnes âgées vivant à domicile afin de leur fournir une assistance. Le système utilise une technologie de Reconnaissance Automatique de la Parole (RAP) qui doit fonctionner en conditions de parole distante et avec de la parole expressive. Pour garantir l’intimité, le système s’exécute localement et ne reconnaît que des phrases prédéfinies. Le système a été évalué par 17 participants jouant des scénarios incluant des chutes dans un Living lab reproduisant un salon. Le taux d’erreur de détection obtenu, 29%, est encourageant et souligne les défis à surmonter pour cette tâche.

Adaptation de la prononciation pour la synthèse de la parole spontanée en utilisant des informations linguistiques (Pronunciation adaptation for spontaneous speech synthesis using linguistic information)
Raheel Qader | Gwénolé Lecorvé | Damien Lolive | Pascale Sébillot

Cet article présente une nouvelle méthode d’adaptation de la prononciation dont le but est de reproduire le style spontané. Il s’agit d’une tâche-clé en synthèse de la parole car elle permet d’apporter de l’expressivité aux signaux produits, ouvrant ainsi la voie à de nouvelles applications. La force de la méthode proposée est de ne s’appuyer que sur des informations linguistiques et de considérer un cadre probabiliste pour ce faire, précisément les champs aléatoires conditionnels. Dans cet article, nous étudions tout d’abord la pertinence d’un ensemble d’informations pour l’adaptation, puis nous combinons les informations les plus pertinentes lors d’expériences finales. Les évaluations de la méthode sur un corpus de parole conversationnelle en anglais montrent que les prononciations adaptées reflètent significativement mieux un style spontané que les prononciations canoniques.

Alignement de séquences phonétiques pour une analyse phonologique des erreurs de transcription automatique (Phonetic sequences alignment for a phonemic analysis of automatic speech transcription errors )
Camille Dutrey | Martine Adda-Decker | Naomi Yamaguchi

La transcription automatique de la parole obtient aujourd’hui des performances élevées avec des taux d’erreur qui tombent facilement en dessous de 10% pour une parole journalistique. Cependant, pour des conversations plus libres, ils stagnent souvent autour de 20–30%. En français, une grande partie des erreurs sont dues à des confusions entre homophones n’impliquant pas les niveaux acousticophonétique et phonologique. Cependant, de nombreuses erreurs peuvent s’expliquer par des variantes de productions non prévues par le système. Afin de mieux comprendre quels processus phonologiques pourraient expliquer ces variantes spécifiques de la parole spontanée, nous proposons une analyse des erreurs en comparant prononciations attendue (référence) et reconnue (hypothèse) via un alignement phonétique par programmation dynamique. Les distances locales entre paires de phonèmes appariés correspondent au nombre de traits phonétiques disjoints. Nos analyses permettent d’identifier les traits phonétiques les plus fréquemment impliqués dans les erreurs et donnent des pistes pour des interprétations phonologiques.

Allophonie et position dans la syllabe: Indices acoustiques pour les consonnes laterales (Acoustics of syllable position allophony: The case of lateral consonants)
Anisia Popescu | Ioana Chitoran

L‟article traite de la manifestation acoustique des consonnes latérales en anglais américain et en roumain en fonction de la position syllabique et de la complexité phonotactique. Nous avons considéré quatre types de mesures: valeurs formantiques, équations locus, ratio d‟intensité et présence/absence de relâchements. Notre but est, d‟une part, de classifier les allophones des deux langues considérées et d‟autre part de déterminer les indices acoustiques des gestes articulatoires des consonnes latérales. Les résultats indiquent des différences importantes entre les deux langues. On montre que la distribution des allophones n‟est pas binaire, mais graduée et que le statut du geste dorsal peut être considéré comme un marqueur de « degré de clarté ». On montre aussi que l‟allophonie dépend de la position syllabique mais pas forcément de la complexité syllabique.

Analyses acoustiques des monophtongues du luxembourgeois produites dans la parole lue (Acoustic analyses of Luxembourgish monophthongs produced in reading speech)
Tina Thill

Cet article présente une analyse acoustique de 12 monophtongues du luxembourgeois produites par des locuteurs de la région centrale du Grand-Duché de Luxembourg. Cette analyse fait partie du travail empirique de notre thèse de doctorat sur les productions natives et non natives des voyelles du luxembourgeois. A partir des données de 10 locuteurs natifs, nous analysons les valeurs de la durée et des trois premiers formants des paires de voyelles longues et brèves opposées [iː]-[i], [eː][e], [aː]-[ɑ], [oː]-[ɔ], [uː]-[u] et de l’allophone [ɛː] réalisée lorsqu’elle est suivie d’un /r/. Les analyses montrent que (i) les voyelles longues et brèves se distinguent tant par la durée acoustique que par le timbre, (ii) la voyelle semi-ouverte [ɛː] suivie d’un /r/ vocalisé tend à se diphtonguer.

Auto-encodeurs pour la compréhension de documents parlés (Auto-encoders for Spoken Document Understanding)
Killian Janod | Mohamed Morchid | Richard Dufour | Georges Linarès | Renato De Mori

Les représentations de documents au moyen d’approches à base de réseaux de neurones ont montré des améliorations significatives dans de nombreuses tâches du traitement du langage naturel. Dans le cadre d’applications réelles, où des conditions d’enregistrement difficiles peuvent être rencontrées, la transcription automatique de documents parlés peut générer un nombre de mots mal transcrits important. Cet article propose une représentation des documents parlés très bruités utilisant des caractéristiques apprises par un auto-encodeur profond supervisé. La méthode proposée s’appuie à la fois sur les documents bruités et leur équivalent propre annoté manuellement pour estimer une représentation plus robuste des documents bruités. Cette représentation est évaluée sur le corpus DECODA sur une tâche de classification thématique de conversations téléphoniques atteignant une précision de 83% avec un gain d’environ 6%.

Autoapprentissage pour le regroupement en locuteurs : premières investigations (First investigations on self trained speaker diarization )
Gaël Le Lan | Sylvain Meignier | Delphine Charlet | Anthony Larcher

This paper investigates self trained cross-show speaker diarization applied to collections of French TV archives, based on an i-vector/PLDA framework. The parameters used for i-vectors extraction and PLDA scoring are trained in a unsupervised way, using the data of the collection itself. Performances are compared, using combinations of target data and external data for training. The experimental results on two distinct target corpora show that using data from the corpora themselves to perform unsupervised iterative training and domain adaptation of PLDA parameters can improve an existing system, trained on external annotated data. Such results indicate that performing speaker indexation on small collections of unlabeled audio archives should only rely on the availability of a sufficient external corpus, which can be specifically adapted to every target collection. We show that a minimum collection size is required to exclude the use of such an external bootstrap.

Bilinguismes et compliance phonique (BILINGUALISMS AND PHONETIC COMPLIANCE)
Marie Philippart de Foy | Véronique Delvaux | Kathy Huet | Myriam Piccaluga | Rima Rabeh | Bernard Harmegnies

BILINGUISMES ET COMPLIANCE PHONIQUE Certains types de bilinguisme pourraient avoir un impact positif sur l’apprentissage phonique et faciliter l’acquisition d’une L3. Certains bilingues pourraient donc présenter une meilleure compliance phonique (aptitude à produire des sons de parole non familiers) que les monolingues. Les données de quatre sujets bilingues ont été recueillies lors d’une tâche de reproduction de voyelles synthétiques précédée d’une phase de production de voyelles en langue maternelle (paradigme développé par Huet et al., 2012). Trois indices ont été calculés et comparés à ceux obtenus par des monolingues francophones lors d’une étude précédente (Delvaux et al., 2014). Les résultats n’ont pas révélé de différence significative entre monolingues et bilingues. Toutefois, le classement des bilingues variait d’un indice à l’autre, suggérant des profils plus diversifiés que chez les monolingues. En conclusion, ces résultats confirment la complexité de la compliance phonique, en particulier chez des locuteurs bilingues, et soulignent l’intérêt d’une approche multi-componentielle ainsi que le besoin d’ajustements ultérieurs de la réflexion théorique sous-jacente.

De bé à bébé : le transfert d’apprentissage auditori-moteur pour interroger l’unité de production de la parole (From sensorimotor experience to speech unit)
Tiphaine Caudrelier | Pascal Perrier | Jean-Luc Schwartz | Christophe Savariaux | Amélie Rochet-Capellan

La parole est souvent décrite comme une mise en séquence d’unités associant des représentations linguistiques, sensorielles et motrices. Le lien entre ces représentations se fait-il de manière privilégiée sur une unité spécifique ? Par exemple, est-ce la syllabe ou le mot ? Dans cette étude, nous voulons contraster ces deux hypothèses. Pour cela, nous avons modifié chez des locuteurs du français la production de la syllabe « bé », selon un paradigme d’adaptation auditori-motrice, consistant à perturber le retour auditif. Nous avons étudié comment cette modification se transfère ensuite à la production du mot « bébé ». Les résultats suggèrent un lien entre représentations linguistiques et motrices à plusieurs niveaux, à la fois celui du mot et de la syllabe. Ils montrent également une influence de la position de la syllabe dans le mot sur le transfert, qui soulève de nouvelles questions sur le contrôle sériel de la parole.

Caractérisation statique et dynamique des voyelles dans des transitions VV (Static and dynamic characterization of vowels in VV sequences)
Julien Millasseau | Olivier Crouzet

Nous étudions les indices acoustiques liés à la caractérisation statique et / ou dynamique des voyelles du français. Nous avons analysé les caractéristiques formantiques de six réalisations vocaliques ainsi que les transitions formantiques de seize combinaisons V1 V2 impliquant ces 6 voyelles afin d’évaluer les contributions des indices dynamiques liés aux transitions entre voyelles et des indices statiques de fréquence. Les mesures correspondantes sont issues d’un protocole dans lequel le débit de parole était influencé expérimentalement afin de provoquer d’éventuelles variations de vitesse de transition. Les résultats ne permettent pas de départager ces deux hypothèses mais montrent que les indices dynamiques pourraient être aussi fiables que les mesures statiques. Des pistes d’extension de ce travail sont proposées qui pourraient contribuer de manière plus informative à cette problématique.

Cartopho : un site web de cartographie de variantes de prononciation en français (Cartopho: a website for mapping pronunciation variants in French)
Philippe Boula de Mareüil | Jean-Philippe Goldman | Albert Rilliard | Yves Scherrer | Frédéric Vernier

Le présent travail se propose de renouveler les traditionnels atlas dialectologiques pour cartographier les variantes de prononciation en français, à travers un site internet. La toile est utilisée non seulement pour collecter des données, mais encore pour disséminer les résultats auprès des chercheurs et du grand public. La méthodologie utilisée, à base de crowdsourcing (ou « production participative »), nous a permis de recueillir des informations auprès de 2500 francophones d’Europe (France, Belgique, Suisse). Une plateforme dynamique à l’interface conviviale a ensuite été développée pour cartographier la prononciation de 70 mots dans les différentes régions des pays concernés (des mots notamment à voyelle moyenne ou dont la consonne finale peut être prononcée ou non). Les options de visualisation par département/canton/province ou par région, combinant plusieurs traits de prononciation et ensembles de mots, sous forme de pastilles colorées, de hachures, etc. sont présentées dans cet article. On peut ainsi observer immédiatement un /E/ plus fermé (ainsi qu’un /O/ plus ouvert) dans le Nord-Pas-de-Calais et le sud de la France, pour des mots comme parfait ou rose, un /Œ/ plus fermé en Suisse pour un mot comme gueule, par exemple.

Comparaison de listes d’erreurs de transcription automatique de la parole : quelle complémentarité entre les différentes métriques ? (Comparing error lists for ASR systems : contribution of different metrics)
Olivier Galibert | Juliette Kahn | Sophie Rosset

Le travail que nous présentons ici s’inscrit dans le domaine de l’évaluation des systèmes de reconnaissance automatique de la parole en vue de leur utilisation dans une tâche aval, ici la reconnaissance des entités nommées. Plus largement, la question que nous nous posons est “que peut apporter une métrique d’évaluation en dehors d’un score ?". Nous nous intéressons particulièrement aux erreurs des systèmes et à leur analyse et éventuellement à l’utilisation de ce que nous connaissons de ces erreurs. Nous étudions dans ce travail les listes ordonnées d’erreurs générées à partir de différentes métriques et analysons ce qui en ressort. Nous avons appliqué la même méthode sur les sorties de différents systèmes de reconnaissance de la parole. Nos expériences mettent en évidence que certaines métriques apportent une information plus pertinente étant donné une tâche et transverse à différents systèmes.

Se concentrer sur les différences : une méthode d’évaluation subjective efficace pour la comparaison de systèmes de synthèse (Focus on differences : a subjective evaluation method to efficiently compare TTS systems * )
Jonathan Chevelu | Damien Lolive | Sébastien Le Maguer | David Guennec

En proposant une nouvelle approche de synthèse de la parole, les études comportent généralement une évaluation subjective d’échantillons acoustiques produits par un système de référence et un nouveau système. Ces échantillons sont produits à partir d’un petit ensemble de phrases choisies aléatoirement dans un unique domaine. Ainsi, statistiquement, des échantillons pratiquement identiques sont présentés et réduisent les écarts de mesure entre les systèmes, au risque de les considérer comme non significatifs. Pour éviter cette problématique méthodologique, nous comparons deux systèmes sur des milliers d’échantillons de différents domaines. L’évaluation est réalisée uniquement sur les paires d’échantillons les plus pertinentes, c’est-à-dire les plus différentes acoustiquement. Cette méthode est appliquée sur un système de synthèse de type HTS et un second par sélection d’unités. La comparaison avec l’approche classique montre que cette méthode révèle des écarts qui jusqu’alors n’étaient pas significatifs.

Constituance et phrasé prosodique en français : une étude perceptive. (Prosodic constituency and phrasing in French: a perception study)
Laury Garnier | Corine Astésano | Lorraine Baqué | Anne Dagnac

L’objectif de cette étude est d’explorer l’organisation du phrasé prosodique en français. Il n’existe pas de consensus clair sur le nombre de niveaux nécessaires pour refléter la hiérarchie prosodique de la langue. Dans ce cadre, nous proposons une étude perceptive, via un corpus de parole contrôlée manipulant des structures syntaxiques ambiguës, où 27 participants ont effectué 3 tâches de perception : proéminence, frontière et groupement. Nos résultats montrent une utilisation privilégiée des indices de frontières dans le marquage des groupes prosodiques. Plus précisément, on observe que les auditeurs sont capables de percevoir des niveaux de granularité de frontières plus fins que ce que les descriptions traditionnelles du français prédisent. Par ailleurs, les résultats de la tâche de proéminence montrent que l’accent initial est toujours perçu plus fort que l’accent final, et ce dès les niveaux les plus bas de la hiérarchie.

Contribuer au progrès solidaire des recherches et de la documentation : la Collection Pangloss et la Collection AuCo (Contributing to joint progress in documentation and research: some achievements and future perspectives of the Pangloss Collection and the AuCo Collection)
Alexis Michaud | Séverine Guillaume | Guillaume Jacques | Đăng-Khoa Mạc | Michel Jacobson | Thu-Hà Phạm | Matthew Deo

La présente communication présente les projets scientifiques et les réalisations de deux collections hébergées par la plateforme de ressources orales Cocoon : la Collection Pangloss, qui concerne principalement des langues de tradition orale (sans écriture), du monde entier ; et la Collection AuCo, dédiée aux langues du Vietnam et de pays voisins. L’objectif est un progrès solidaire des recherches et de la documentation linguistique. L’accent est mis sur les perspectives ouvertes pour la recherche en phonétique/phonologie par certaines réalisations récentes dans le cadre de ces deux Collections.

Contribution à l’étude de la focalisation prosodique en français (Contribution to the study of prosodic highlighting in French)
Rémi Godement-Berline

Cette étude porte sur la focalisation prosodique en français dans plusieurs styles de parole (parole spontanée et lecture ou interprétation par des acteurs). Nous attribuons à la focalisation des fonctions sémantico-pragmatiques ou emphatiques. Un groupe de dix experts en prosodie a relevé les occurrences de focalisation dans le corpus d’étude. Les résultats confirment que la focalisation est réalisée par une augmentation de hauteur et de durée. Ils diffèrent de la littérature précédente du point de vue du type de contour prosodique employé sur les occurrences de focalisation et de la présence d’accent initial. Des problèmes méthodologiques sont soulevés concernant l’analyse des contours terminaux et de la désaccentuation.

Un Corpus de Flux TV Annotés pour la Prédiction de Genres (A Genre Annotated Corpus of French Multi-channel TV Streams for Genre Prediction)
Mohamed Bouaziz | Mohamed Morchid | Richard Dufour | Georges Linarès | Prosper Correa

Cet article présente une méthode de prédiction de genres d’émissions télévisées couvrant 2 jours de diffusion de 4 chaînes TV françaises structurés en émissions annotées en genres. Ce travail traite des médias de masse de flux de chaînes télévisées et rejoint l’effort global d’extraction de connaissance à partir de cette grande quantité de données produites continuellement. Le corpus employé est fourni par l’entreprise EDD, anciennement appelée “L’Européenne de Données”, une entreprise spécialisée dans la gestion des flux multimédias. Les expériences détaillées dans cet article montrent qu’une approche simple fondée sur un modèle de n-grammes permet de prédire le genre d’une émission selon un historique avec une précision avoisinant les 50 %.

Disfluences dans le vieillissement « normal » et la maladie d’Alzheimer : indices segmentaux, suprasegmentaux et gestuels (Disfluencies in “normal” aging and Alzheimer’s disease: segmental, suprasegmental and gestural markers)
Diane Caussade | Nathalie Vallée | Nathalie Henrich Bernardoni | Jean-Marc Colletta | Silvain Gerber | Frédérique Letué | Marie-José Martinez

L’objectif de cette étude est d’analyser et comparer les productions langagières dans leur multimodalité de 10 personnes atteintes de la maladie d’Alzheimer (MA) appariées à 10 contrôles. Différentes mesures aux niveaux segmental et suprasegmental – erreurs, pauses et allongements vocaliques – ont été réalisées dans une tâche de répétition avec ou sans gestes imposés pour caractériser une disfluence, typique de la MA, puis observées en lien avec les gestes manuels produits. Les résultats montrent la diminution significative de la fluence chez les personnes atteintes de la MA, avec davantage d’erreurs produites au niveau lexical par le groupe Patient et au niveau phonétique par les patients au stade modéré de la maladie, ainsi que de nombreuses pauses silencieuses précédant ou suivant souvent les erreurs produites au niveau segmental. De plus, dans la tâche avec gestes imposés, la répétition de ceux-ci a impacté la fluence des groupes Contrôle et Patient avec une augmentation significative des disfluences au niveau suprasegmental et des erreurs phonétiques au niveau segmental.

Disfluences normales vs. Disfluences sévères : une étude acoustique (Normal disfluences vs)
Ivana Didirkova | Camille Fauth | Fabrice Hirsch | Giancarlo Luxardo | Sascha Diwersy

L’objectif de cette recherche est d’étudier les caractéristiques acoustiques et perceptives des disfluences normales et sévères. Pour ce faire, un jury d’auditeurs experts a relevé les disfluences sévères et normales de 4 locuteurs qui bégaient ainsi que les accidents de parole de 4 sujets normofluents. Une analyse acoustique portant sur des paramètres tels que la durée de la disfluence, le nombre de disfluences ou encore sur la présence d’éléments prosodiques particuliers a été menée sur les seules disfluences ayant été relevés par l’ensemble du jury. Nos résultats montrent que si les prolongations et les répétitions sont bien évidemment catégorisées comme sévères respectivement en fonction de leur durée et du nombre d’éléments réitérés, d’autres paramètres sont également significatifs, tels que la présence ou non d’une tension audible, le type d’éléments répétés ou encore le fait que la syllabe soit ou non clivée.

La distinction entre les paraphasies phonétiques et phonologiques dans l’aphasie : Etude de cas de deux patients aphasiques (The distinction between phonetic and phonological paraphasias in aphasia: A multiple casestudy of aphasic patients)
Clémence Verhaegen | Véronique Delvaux | Kathy Huet | Sophie Fagniart | Myriam Piccaluga | Bernard Harmegnies

La spécificité phonologique ou phonétique des erreurs de production orale observées chez les patients aphasiques reste débattue. Cependant, la distinction entre ces deux types d’erreurs est fréquemment basée sur des analyses perceptives qui peuvent être influencées par le système perceptif de l’expérimentateur. Afin de pallier ce biais, nous avons réalisé des analyses acoustiques des productions de deux patients aphasiques, dans une tâche de répétition de non-mots. Nous nous sommes centrés sur l’analyse de consonnes occlusives. Les résultats ont montré la présence de difficultés de gestion du voisement chez les deux patients, indiquant la présence de troubles phonétiques. En outre, les résultats montrent une grande diversité des manifestations des troubles langagiers des patients ainsi que l’intervention potentielle de stratégies de compensation de leurs difficultés. L’intérêt de procéder à des analyses acoustiques précises utilisant des indices multiples est discuté.

Dynamique phonétique et contrôle moteur dans la maladie de Parkinson: analyse du contrôle de la production des glides (Speech dynamics and motion control in people with Parkinson’s disease: analysis of glides’ production)
Virginie Roland | Véronique Delvaux | Kathy Huet | Myriam Piccaluga | Marie-Claire Haelewyck | Bernard Harmegnies

Nous nous interrogeons quant à la possibilité d’identifier les difficultés de contrôle du mouvement chez les personnes atteintes de la maladie de Parkinson (MP) à partir de l’étude de leurs comportements dans la production de sons de parole nécessitant des mouvements continus des articulateurs supralaryngés (logatomes VCV, où C est un glide). Notre hypothèse est que les parkinsoniens présentent des modifications dans leur dynamique de mouvement par rapport à des personnes sans pathologie lors de la production. A cette fin, sont étudiés des sons de parole recueillis hors contexte communicationnel auprès de neuf personnes porteuses de la MP et de dix sujets sains. Les analyses révèlent des différences entre les deux groupes, notamment en ce qui concerne l’espace articulatoire, l’amplitude des mouvements et leur localisation dans le plan F 1-F2. On note par ailleurs qu’un point-cible est préservé lors de l’émission de logatomes : le centre du glide.

Dénomination d’image versus détection interne de phonème : deux méthodes pour étudier la planification de la production de parole (Picture naming versus internal phoneme monitoring: two methods for exploring speech production planning)
Pierre Hallé | Laura Manoiloff | Juan Segui

Cette étude est motivée initialement par une question méthodologique : la validité des mesures de temps de dénomination d’image, très utilisés pour explorer les processus de planification de production de parole. Le temps de dénomination est le temps écoulé entre affichage de l’image et début acoustique de la réponse verbale. Dans cet article, nous résumons la littérature sur les inconvénients de cette mesure. Nous présentons ensuite notre étude, qui compare directement temps de dénomination d’image et temps de détection interne de phonème initial. Les participants sont hispanophones. Les noms d’image sont contrastés en fréquence lexicale et phonème initial. Les temps de réponse pour les deux mesures sont assez proches. Cependant, ceux de détection de phonème sont relativement insensibles au type de phonème initial, contrairement aux temps de dénomination. Au delà de l’avantage méthodologique de la détection interne de phonème, nos données suggèrent que celle-ci opère sur des représentations relativement abstraites.

Détection automatique d’anomalies sur deux styles de parole dysarthrique: parole lue vs spontanée (Automatic anomaly detection for dysarthria across two speech styles : read vs spontaneous speech)
Imed Laaridh | Corinne Fredouille | Meunier Christine

L’évaluation perceptive de la parole pathologique reste le standard dans la pratique clinique pour le diagnostic et le suivi des patients. De telles méthodes incluent plusieurs tâches telles que la lecture, la parole spontanée, le chant, les mots isolés, la voyelle tenue, etc. Dans ce contexte, les outils de traitement automatique de la parole ont montré leur pertinence dans l’évaluation de la qualité de parole ainsi que dans le cadre de la communication améliorée et alternative (CAA) pour les patients atteints de troubles de parole. Cependant, peu de travaux ont étudié l’utilisation de ces outils sur la parole spontanée. Ce papier examine le comportement d’un système de détection automatique d’anomalies au niveau phonème face à la parole dysarthrique lue et spontanée. Le comportement du système révèle une variabilité inter-pathologique à travers les styles de parole.

Effet de l’input auditif sur la production de voyelles orales : étude acoustique chez des enfants normo-entendants et des enfants porteurs d’implants cochléaires âgés de 5 à 11 ans (Effect of audio input on vowel production: an acoustic study in 5- to 11-year old normalhearing and cochlear implanted children)
Benedicte Grandon | Anne Vilain

Treize enfants porteurs d’implants cochléaires (CI) et vingt enfants normo-entendants (NH) ont été enregistrés dans deux conditions : répétition de mots avec un modèle audio et production des mêmes mots sans modèle audio. Notre but était d’étudier l’effet de l’input audio sur la hauteur, l’antériorité et la dispersion des dix voyelles orales du français chez ces deux populations d’enfants. Les résultats de notre étude acoustique indiquent que : (1) l’input immédiat n’influence que la hauteur du /a/ chez les enfants NH, (2) les enfants CI produisent des voyelles /y/, /ø/, /œ/ plus postérieures que les enfants NH mais que cette différence diminue à mesure que la durée d’utilisation de l’implant augmente, et (3) la dispersion de /y/, /ø/, /œ/ est plus grande chez les enfants CI que chez les enfants NH.

Effet de la fréquence d’usage sur l’élision du schwa des clitiques : étude d’un corpus d’interactions naturelles (Frequency effect on schwa elision in clitics: a corpus based study)
Loïc Liégeois

Cette étude s’intéresse à l’influence d’un facteur d’usage, à savoir la fréquence des formes, sur la (non) production des schwas des clitiques. Dans cet objectif, nous nous appuyons sur un corpus d’interactions entre adultes recueillies en situation naturelle : les enregistrements, réalisés au domicile de nos six sujets, ont été récoltés au cours de scènes de vie quotidienne. Les données présentées au cours de nos analyses corroborent les résultats exposés dans de précédents travaux au sujet des schwas initiaux de polysyllabes. En effet, il s’avère que la fréquence d’emploi des collocations “Clitique + X” a un effet significatif sur les taux d’élision relevés dans les productions de nos sujets.

Effort produit et ressenti selon le voisement en français (Produced and perceived effort according to the voicing in French)
Camille Robieux | Thierry Legou | Yohann Meynadier | Meunier Christine

Les muscles laryngés et articulatoires sont impliqués dans la réalisation des traits qui distinguent les phonèmes. Cette étude porte sur l’auto-perception par les locuteurs et la répartition de l’effort vocal et articulatoire en fonction du trait de voisement en parole modale comparée à la parole chuchotée en français. Pour les 12 obstruantes du français, l’effort est ressenti plus important pour les voisées que les non voisées correspondantes, excepté dans le cas des fricatives labiodentales. Les analyses de la production des occlusives bilabiales montrent que l’effort laryngé est supérieur pour les consonnes voisées et l’effort articulatoire supérieur pour les non voisées, mais l’inverse pour les fricatives. Ces résultats indiquent que l’effort ressenti lors de sa propre production repose sur une perception prédominante de l’effort laryngé sur l’effort articulatoire en voix modale comme en voix chuchotée ; mais qu’il est cependant modulé selon le lieu et le mode d’articulation des consonnes.

Entraînements à la prosodie des questions ouvertes et fermées de l’anglais chez des apprenants francophones (Prosodic training for French students of English on Wh- and yes-no questions)
Anne Guyot-Talbot | Karin Heidlmayr | Emmanuel Ferragne

Des étudiants en anglais étaient invités à lire trois types de phrases : assertions, questions fermées et ouvertes. Ils étaient ensuite soumis à 3 sessions d’entraînements où ils devaient répéter des phrases interrogatives prononcées par une anglophone. Après chaque phrase, leur contour de F0 sur la syllabe portant le noyau intonatif ainsi que celui de la locutrice anglaise étaient affichés à l’écran. Ces sessions devaient leur permettre d’inférer une règle du système intonatif de l’anglais qui induit, par défaut, un contour montant pour les questions fermées et un contour descendant pour les questions ouvertes. Puis, une nouvelle séance d’enregistrements permettait de collecter des phrases à comparer au pré-test pour juger l’efficacité de l’entraînement. Les résultats montrent une réduction significative de la distance entre les contours mélodiques des apprenants du groupe test et ceux de la locutrice modèle entre pré-test et post-test, ce qui suggère un effet bénéfique de nos entraînements.

Estimation de la qualité d’un système de reconnaissance de la parole pour une tâche de compréhension (Quality estimation of a Speech Recognition System for a Spoken Language Understanding task)
Olivier Galibert | Nathalie Camelin | Paul Deléglise | Sophie Rosset

Nous nous intéressons à l’évaluation de la qualité des systèmes de reconnaissance de la parole étant donné une tâche de compréhension. L’objectif de ce travail est de fournir un outil permettant la sélection d’un système de reconnaissance automatique de la parole le plus adapté pour un système de dialogue donné. Nous comparons ici différentes métriques, notamment le WER, NE-WER et ATENE métrique proposée récemment pour l’évaluation des systèmes de reconnaissance de la parole étant donné une tâche de reconnaissance d’entités nommées. Cette dernière métrique montrait une meilleure corrélation avec les résultats de la tâche globale que toutes les autres métriques testées. Nos mesures indiquent une très forte corrélation avec la mesure ATENE et une moins forte avec le WER.

Etude acoustique du discours politique d’hispanophones : le cas de Hugo Chávez et de José Zapatero (Politicians’ speech styles can be distinguished thanks to their prosodic realizations)
Carmen Patricia Pérez

Les styles de discours des hommes politiques peuvent être identifiés grâce à leurs réalisations prosodiques. On peut reconnaître un homme politique ‘révolutionnaire’ ou ‘traditionnel’ en écoutant quelques minutes de discours. Je me propose de montrer quels sont les paramètres prosodiques pertinents dans cette distinction en comparant les phonostyles de Hugo Chávez et José Zapatero. Je présente également le changement de phonostyle de Chávez dans deux situations différentes (c.-àd. deux phono-genres), en interview et en public. Le modèle de Ph. Martin Contraste de Pente Mélodique est utilisé pour décrire la structure prosodique. Les analyses acoustiques montrent que les phonostyles de ces personnalités se différencient, dans le même phono-genre, dans la réalisation des contours de continuation, l’étendue du registre et le débit, alors que la construction des groupes intonatifs est semblable. Une brève étude sur les imitateurs de Chávez et de Zapatero est rajoutée pour montrer qu’ils reproduisent avec efficacité les paramètres acoustiques pertinents de ces leaders.

Etude acoustique et représentation phonologique sur /ə˞/ suffixe rhotique en mandarin (Acoustic study and phonological representation of the rhotic suffix /ə˞/ in mandarin)
Anqi Liu

Historiquement, le suffixe /ə˞/ est un suffixe diminutif correspondant au mot 儿 (<er> en pinyin) qui signifie ”petitesse”. Il relève d’une particularité du style plutôt que de la grammaire. Il apparait souvent dans la parole des locuteurs du nord de la Chine. Pour mieux comprendre le phénomène et son comportement phonologique, on présente les résultats d’une étude acoustique qui vérifie les effets de la rhoticité sur les voyelles adjacentes. Sur la base de ces résultats, on propose une représentation gestuelle du suffixe et des processus qui l’impliquent dans le cadre de la phonologie articulatoire (Browman & Goldstein1992).

Étude de la contribution acoustique de la structure formantique à la perception du ton chuchoté (A study of the acoustic contri bution of formant structure to tone i dentificati on in whis pered speech)
Zhang Xuelu | Rudolph Sock

Cette étude examine la contribution de la structure formantique du segment vocalique à l’identification du ton que ce segment porte, et cela en voix chuchotée. Le mandarin a été choisi en tant que langue cible parce que les traits tonals (tone features) en mandarin s’appuient acoustiquement sur deux dimensions : le registre et le contour. Nous supposons qu’en l’absence d e F0, la structure formantique subirait néanmo ins une modification, en fonction du ton et fournirait des indices acoustiques des traits tonals à l’auditeur. Nous nous intéressons aux rapports entre les deux dimensions de traits tonals et à la modification de la structure formantique. À travers l’analyse des données acoustiques issues de 13 sujets locutrices, nous avons observé une divergence d’importance dans les intervalles F2-F3 et F3-F4, en fonction du ton. Cette divergence semble liée aux contrastes tonals en registre et non au x contours mélodiques. Cette d istinction semble dépendre d’ailleurs de la nature de voyelle.

Étude de la qualité vocale post-thyroïdectomie chez des patients souffrants ou non de paralysie récurrentielle (A post-thyroidectomy voice quality study in patients suffering or not from laryngeal paralysis)
Ming Xiu | Camille Fauth | Béatrice Vaxelaire | Jean-François Rodier | Pierre-Philippe Volkmar | Rudolph Sock

L’objet principal de cette étude est la qualité vocale après une thyroïdectomie. Cette opération provoque souvent une dégradation de la qualité vocale de façon permanente ou temporaire. La qualité vocale sera étudiée à l’aide d’indices aérodynamiques et acoustiques. Deux groupes de patients sont suivis et étudiés : un premier groupe de patients pour lesquels l’examen post-opératoire a révélé un défaut de mobilité de l’un des plis vocaux ; Un second groupe de patients pour lesquels l’examen post-opératoire n’a pas révélé de perturbation de la mobilité laryngée. Il s’agit d’une étude longitudinale dans laquelle la référence est constituée par la voix du locuteur en préopératoire. Les résultats préliminaires indiquent que l’ablation de la glande thyroïde modifie la voix des patients alors même que la mobilité laryngée est préservée. Tous les paramètres étudiés ont été modifiés. Le temps a toutefois un effet positif pour tous les locuteurs suivis, puisque leurs productions s’approchent, un mois après l’opération, des valeurs mesurées en préopératoire.

Etude par EMA des mouvements de la mâchoire inférieure durant les consonnes de l’arabe marocain (EMA study of jaw movements during Moroccan Arabic consonants)
Chakir Zeroual | Philip Hoole | Adamantios Gafos

Cette étude est basée sur des données obtenues à l’aide d’EMA (AG500) enregistrant les mouvements de la mâchoire inférieure (Minf) durant les consonnes labiales, coronales, vélaires, uvulaires, pharyngales et laryngales de l’arabe marocain dans les contextes aCa et iCi. Nous avons montré que l’implication de la Minf est cruciale durant /s S t T/ (S T : consonnes emphatiques). Le recul de la racine de la langue n’est pas nécessairement corrélé à la baisse de la Minf. Les consonnes apicales ne sont pas toujours associées à l’abaissement de la Minf. La Minf ne semble pas impliquée durant les laryngales et les pharyngales, ce qui est en accord avec les déductions de Goldstein (1995). Les mouvements verticaux et horizontaux de la Minf sont relativement indépendants.

Étude transversale du rythme de l’anglais chez des apprenants francophones (A cross-sectional study of rhythm in French students of English)
Quentin Michardière | Anne Guyot-Talbot | Emmanuel Ferragne | François Pellegrino

Dans cette étude, nous avons demandé à 3 groupes d’étudiants en anglais (niveaux L1, L2 et L3) de lire un dialogue en anglais afin d’évaluer la possibilité d’une amélioration de leur production sur le plan du rythme en fonction de leur niveau universitaire. Le dialogue a également été lu par des anglophones, et une traduction du dialogue en français a été enregistrée par des francophones dans le but d’établir un espace de référence pour l’anglais L1 et le français L1. Nous avons employé des mesures classiques du rythme s’appuyant sur la durée, et avons également exploré la pertinence de mesures basées sur l’enveloppe d’amplitude et le spectre de cette enveloppe. Nous constatons un manque de fiabilité des mesures classiques du rythme, et proposons quelques pistes.

Exploration de paramètres acoustiques dérivés de GMM pour l’adaptation non supervisée de modèles acoustiques à base de réseaux de neurones profonds (Exploring GMM-derived features for unsupervised adaptation of deep neural network acoustic models)
Natalia Tomashenko | Yuri Khokhlov | Anthony Larcher | Yannick Estève

L’étude présentée dans cet article améliore une méthode récemment proposée pour l’adaptation de modèles acoustiques markoviens couplés à un réseau de neurones profond (DNN-HMM). Cette méthode d’adaptation utilise des paramètres acoustiques dérivés de mixtures de modèles Gaussiens (GMM-derived features, GMMD ). L’amélioration provient de l’emploi de scores et de mesures de confiance calculés à partir de graphes construits dans le cadre d’un algorithme d’adaptation conventionnel dit de maximum a posteriori (MAP). Une version modifiée de l’adaptation MAP est appliquée sur le modèle GMM auxiliaire utilisé dans une procédure d’apprentissage adaptatif au locuteur (speaker adaptative training, SAT) lors de l’apprentissage du DNN. Des expériences menées sur le corpus Wall Street Journal (WSJ0) montrent que la technique d’adaptation non supervisée proposée dans cet article permet une réduction relative de 8, 4% du taux d’erreurs sur les mots (WER), par rapport aux résultats obtenus avec des modèles DNN-HMM indépendants du locuteur utilisant des paramètres acoustiques plus conventionnels.

Extraction automatique de contour de lèvre à partir du modèle CLNF (Automatic lip contour extraction using CLNF model)
Li Liu | Gang Feng | Denis Beautemps

Dans cet article nous proposons une nouvelle solution pour extraire le contour interne des lèvres d’un locuteur sans utiliser d’artifices. La méthode s’appuie sur un algorithme récent d’extraction du contour de visage développé en vision par ordinateur, CLNF pour Constrained Local Neural Field. Cet algorithme fournit en particulier 8 points caractéristiques délimitant le contour interne des lèvres. Appliqué directement à nos données audio-visuelles du locuteur, le CLNF donne de très bons résultats dans environ 70% des cas. Des erreurs subsistent cependant pour le reste des cas. Nous proposons des solutions pour estimer un contour raisonnable des lèvres à partir des points fournis par CLNF utilisant l’interpolation par spline permettant de corriger ses erreurs et d’extraire correctement les paramètres labiaux classiques. Les évaluations sur une base de données de 179 images confirment les performances de notre algorithme.

FN5, un modèle psycholinguistique informatique de la reconnaissance des mots parlés chez l’auditeur français, mis à la disposition des chercheurs et enseignants (FN5, a computational psycholinguistic model of spoken word recognition in French, made available to researchers and teachers)
Nicolas Léwy

Voici un modèle psycholinguistique informatique pour le français. Il s’appelle FN5 et simule la reconnaissance humaine de mots parlés, présentés seuls (déterminant, adjectif antéposé, substantif) ou en suites de deux mots (déterminant et substantif, adjectif antéposé et substantif). Le modèle contient un lexique de 17 668 mots et cela dans deux versions, française et Suisse romande. Grâce à une architecture connexionniste localiste à trois niveaux (traits distinctifs, phonèmes, mots) qui est enrichie de plusieurs innovations clés (processeur de position, groupements de connexions, et point d’isolation), le modèle peut reconnaître la plupart des mots et des suites qu’on lui présente (taux de succès entre 83.6% et 99.7%), et en plus, il est capable de reproduire un grand nombre d’effets trouvés lors d’études expérimentales (ex. fréquence, longueur, effacement du schwa, liaison, etc.). Le modèle, qui possède une interface graphique, est téléchargeable, et utilisable à la fois pour la recherche et pour l’enseignement.

Fusion d’espaces de représentations multimodaux pour la reconnaissance du rôle du locuteur dans des documents télévisuels (Multimodal embedding fusion for robust speaker role recognition in video broadcast )
Sebastien Delecraz | Frederic Bechet | Benoit Favre | Mickael Rouvier

L’identification du rôle d’un locuteur dans des émissions de télévision est un problème de classification de personne selon une liste de rôles comme présentateur, journaliste, invité, etc. À cause de la nonsynchronie entre les modalités, ainsi que par le manque de corpus de vidéos annotées dans toutes les modalités, seulement une des modalités est souvent utilisée. Nous présentons dans cet article une fusion multimodale des espaces de représentations de l’audio, du texte et de l’image pour la reconnaissance du rôle du locuteur pour des données asynchrones. Les espaces de représentations monomodaux sont entraînés sur des corpus de données exogènes puis ajustés en utilisant des réseaux de neurones profonds sur un corpus d’émissions françaises pour notre tâche de classification. Les expériences réalisées sur le corpus de données REPERE ont mis en évidence les gains d’une fusion au niveau des espaces de représentations par rapport aux méthodes de fusion tardive standard.

L’impact des variations temporelles intrinsèques et extrinsèques de la voyelle sur la relation consonne-voyelle : Étude translinguistique sur l’arabe jordanien et le français (The impact of extrinsic and intrisic vowel temporal variations on the consonant-vowel relationship : A trans-linguistic investigation on Jordanian Arabic and French)
Mohammad Abuoudeh | Olivier Crouzet

Cette étude permet d’explorer les variations spectrales engendrées par deux types de variations temporelles qui résultent respectivement de l’opposition de longueur vocalique et des variations de débit de parole. Deux protocoles expérimentaux ont été conçus, l’un en arabe jordanien et l’autre en français, pour examiner ce phénomène. Un intérêt particulier a été porté aux occlusives produites dans des séquences CVC dans le but d’étudier la consonne en position initiale et la coarticulation anticipatoire. La durée des voyelles et la fréquence des trois premiers formants au début et au milieu de chaque séquence ont été mesurées dans chaque condition de longueur / débit. Les équations de locus ont été utilisées afin de décrire la relation CV quand elle subit ces deux types de variations. Selon les résultats, la qualité de la voyelle et de la consonne est influencée dans l’opposition de durée et dans le débit de parole. Ce changement généré par les variations temporelles est détecté à l’aide des équations de locus. Ces dernières révèlent qu’il existe un chevauchement coarticulatoire plus important quand la durée de la voyelle décroît.

Incidence de la chirurgie naso-sinusienne sur la qualité vocale : étude d’un cas clinique (Impact of Sinus Surgery on Voice Quality: Case Study)
Lise Crevier Buchman | Angelique Amelot | Benedicte Mas | Mathilde Giron | Pierre Bonfils

Les fosses nasales participent à la résonance vocale et toute modification de ces structures peut altérer la qualité vocale. Le rôle des sinus comme résonateurs dans la production vocale reste plus controversé. Le but de notre étude prospective était d’explorer d’éventuelles modifications acoustiques chez un chanteur professionnel en pré et post-opératoire après chirurgie naso-sinusienne unilatérale. A partir de la lecture d’un texte, nous avons extrait les voyelles /a,i,u/ pour mesurer les paramètres acoustiques de fréquence (F0), des formants F1 et F2, de leur largeur de bande, et de qualité vocale (LTAS et H1*-H2*). L’étude a été complétée par une auto-évaluation de la qualité de voix. Nos résultats n’ont pas permis de mettre en évidence de différence statistiquement significative des paramètres acoustiques bien que le patient ait signalé une impression d’amélioration vocale chantée. Ces résultats pour le français confirment ceux de la littérature et peuvent servir à informer les patients.

Influence de la quantité de données sur une tâche de segmentation de phones fondée sur les réseaux de neurones (Phone-level speech segmentation with neural networks : influence of the amount of data )
Céline Manenti | Thomas Pellegrini | Julien Pinquier

Dans cet article, nous décrivons une étude expérimentale de segmentation de parole en unités acoustiques sous-lexicales (phones) à l’aide de réseaux de neurones. Sur le corpus de parole spontanée d’anglais américain BUCKEYE, une F-mesure de 68% a été obtenue à l’aide d’un réseau convolutif, en considérant une marge d’erreur de 10 ms. Cette performance est supérieure à celle d’un annotateur manuel, l’accord inter-annotateurs étant de 62%. Restreindre les données d’apprentissage à celles d’un unique locuteur, 30 minutes environ, a eu pour conséquence moins de 10% de perte et utiliser celles de 5 locuteurs a permis d’atteindre des résultats similaires à utiliser plus de données. Utiliser le modèle entraîné avec le corpus anglais sur un petit corpus d’une langue peu dotée a donné des résultats comparables à estimer un modèle avec des données de cette langue.

L’invasivité phonologique dans le traitement des anglicismes : une étude quantitative de trois langues (Phonological invasiveness in the treatment of loanwords)
Tomáš Duběda

Dans la présente étude, nous analysons, dans une perspective typologique, l’adaptation phonologique des anglicismes dans trois langues (français, allemand et tchèque). La classification des formes phonologiques, qui s’appuie sur un système de huit principes d’adaptation, a pour but d’établir le degré d’« invasivité phonologique » propre à chaque langue. L’approximation phonologique (substitution de phonèmes natifs aux phonèmes étrangers) semble être le principe fondamental dans les trois langues analysées, alors que la prononciation orthographique (phonétisation des graphèmes) intervient avant tout en français. La prononciation authentique (imitation phonologique de la langue source) n’est active qu’en allemand. Les mécanismes d’approximation phonologique sont plus invasifs en français que dans les deux autres langues, et ce notamment en ce qui concerne le système vocalique. Globalement, l’invasivité phonologique semble augmenter dans l’ordre allemand – tchèque – français.

Investigation glottographique et laryngoscopique de la transition entre les deux principaux mécanismes laryngés (Glottographic and laryngoscopic investigation of the transition between the two main laryngeal mechanisms)
Arthur Givois | Didier Demolin | Lise Crevier-Buchman | Angélique Amelot

Cet article étudie par une approche descriptive la transition entre le premier et le second mécanisme laryngé. Des mesures électroglottographiques ont été réalisées simultanément à des captures d’images par laryngoscopie sur deux sujets : une femme et un homme. Des différences de comportement entre les deux sujets ont été observées. Un mouvement vertical de grande amplitude du larynx est systématiquement observé au moment de la transition chez le sujet masculin, tandis que des modifications de petite amplitude de la distance entre paroi pharyngale et épiglotte, ou de la compression des plis aryépiglottiques sont remarquées chez le sujet féminin. Ces changements de configurations s’effectuent de façon continue chez cette dernière alors qu’un changement soudain de l’activité des plis vocaux a lieu à un instant précisément localisé pour les productions des deux sujets. Ces différences d’ajustements laryngés sont liées à des modifications des paramètres mécaniques dont dépendent la fréquence fondamentale et qui restent à estimer.

Modélisation bayésienne de la planification motrice des gestes de parole: Évaluation du rôle des différentes modalités sensorielles (Bayesian modeling of speech gesture motor planning: Evaluating the role of different sensory modalities )
Jean-François Patri | Julien Diard | Pascal Perrier

La prise en compte des informations auditives et proprioceptives dans le contrôle de la parole est mise en évidence par un nombre croissant de résultats expérimentaux. Cependant, les modèles de production imposent le plus souvent l’une ou l’autre des modalités, ou n’offrent pas de cadre formel pour évaluer leurs contributions respectives. Nous proposons d’explorer le rôle de ces modalités sensorielles dans la planification des gestes de parole à partir d’un modèle bayésien représentant la structure des connaissances mises en jeu dans cette tâche. Le modèle permet d’envisager trois mécanismes de planification, reposant sur la modalité auditive, proprioceptive ou sur les deux conjointement. Nous comparons des simulations obtenues par les deux premiers mécanismes de planification. Les résultats indiquent des réalisations articulatoires différentes mais donnant néanmoins des réalisations auditives qualitativement similaires dans leur variabilité.

Une méthode d’évaluation de la compréhension orale par choix d’image : application à de la parole dégradée par simulation de la presbyacousie (A method for assessing listening comprehension using image selection : application to speech degraded by presbycusis simulation)
Cynthia Magnen | Julien Tardieu | Lionel Fontan | Pascal Gaillard | Nathalie Spanghero-Gaillard

Nous présentons une méthode permettant d’évaluer la compréhension de la parole dégradée par simulation des effets de la presbyacousie, dans le calme et dans le bruit. Cette méthode intègre des phrases signifiantes et implique pour l’auditeur de sélectionner, parmi un ensemble de quatre images, celle qui correspond à l’énoncé qu’il entend. Le test présente de nombreux avantages méthodologiques comme l’immédiateté du score et le fait qu’il ne nécessite pas de faire répéter la phrase entendue. Les résultats obtenus montrent un effet significatif de la dégradation et du bruit du fond. La cohérence de ces effets avec les études précédentes sur la presbyacousie permet de valider cette méthode. Par ailleurs, la nature exacte du score mesuré dans ce test est discutée en le comparant avec le score d’intelligibilité obtenu par répétition d’items dans une précédente étude.

Optimiser l’adaptation en ligne d’un module de compréhension de la parole avec un algorithme de bandit contre un adversaire (Adversarial bandit for optimising online active learning of spoken language understanding)
Emmanuel Ferreira | Alexandre Reiffers-Masson | Bassam Jabaian | Fabrice Lefèvre

De nombreux modules de compréhension de la parole ont en commun d’être probabilistes et basés sur des algorithmes d’apprentissage automatique. Deux difficultés majeures, rencontrées par toutes les méthodes existantes sont : le coût de la collecte des données et l’adaptation d’un module existant à un nouveau domaine. Dans cet article, nous proposons un processus d’adaptation en ligne avec une politique apprise en utilisant un algorithme de type bandit contre un adversaire. Nous montrons que cette proposition peut permettre d’optimiser un équilibre entre le coût de la collecte des retours demandés aux utilisateurs et la performance globale de la compréhension du langage parlé après sa mise à jour.

Patrons Rythmiques et Genres Littéraires en Synthèse de la Parole (How to improve rhythmic patterns according to literary genre in synthesized speech ⇤ )
Elisabeth Delais-Roussarie | Damien Lolive | Hiyon Yoo | David Guennec

Ces vingt dernières années, la qualité de la parole synthétique s’est améliorée grâce notamment à l’émergence de nouvelles techniques comme la synthèse par corpus. Mais les patrons rythmiques obtenus ne sont pas toujours perçus comme très naturels. Dans ce papier, nous comparons les patrons rythmiques observés en parole naturelle et synthétique pour trois genres littéraires. Le but de ce travail est d’étudier comment le rythme pourrait être amélioré en synthèse de parole. La comparaison des patrons rythmiques est réalisée grâce à une analyse de la durée relativement à la structure prosodique, les données audio provenant de six comptines, quatre poèmes et deux extraits de conte. Les résultats obtenus laissent penser que les différences rythmiques entre parole naturelle et synthétique sont principalement dues au marquage de la structure prosodique, particulièrement au niveau des groupes intonatifs. De fait, le taux d’allongement des syllabes accentuées en fin de groupes intonatifs est beaucoup plus important en synthèse que dans la parole naturelle.

Une pénalité floue fondée phonologiquement pour améliorer la Sélection d’Unité (A Phonologically Motivated Penalty To Improve Unit Selection)
David Guennec | Damien Lolive

Les systèmes de synthèse par corpus reposent, sauf de rares exceptions, sur des coûts cibles et des coûts de concaténation pour sélectionner la meilleure séquence d’unités. Le rôle du coût de concaténation est de s’assurer que l’assemblage de deux segments de parole ne causera l’apparition d’aucun artefact acoustique. Pour cette tâche, des distances acoustiques (MFCC, F0) sont généralement utilisées, mais dans de nombreux cas cela ne suffit pas. Dans cet article, nous introduisons une pénalité héritée du domaine de la couverture de corpus dans le coût de concaténation afin de bloquer certaines concaténations en fonction de la classe phonologique des diphones à concaténer. En outre, une seconde version faisant appel à une fonction floue est proposée pour relâcher la pénalité en fonction du positionnement du coût de concaténation par rapport à sa distribution. Une évaluation objective montre que la pénalité est efficace et amène à un meilleur classement des séquences d’unités candidates au cours de la sélection. Une évaluation subjective révèle une performance supérieure de l’approche floue.

Perception audio-visuelle de séquences VCV produites par des personnes porteuses de Trisomie 21 : une étude préliminaire (Auditory-visual Perception of VCVs Produced by People with Down Syndrome: a Preliminary Study)
Alexandre Hennequin | Amélie Rochet-Capellan | Marion Dohen

La parole des personnes avec trisomie 21 (T21) présente une altération systématique de l’intelligibilité qui n’a été quantifiée qu’auditivement. Or la modalité visuelle pourrait améliorer l’intelligibilité comme c’est le cas pour les personnes « ordinaires ». Cette étude compare la manière dont 24 participants ordinaires perçoivent des séquences VCV voyelle-consonne-voyelle) produites par quatre adultes (2 avec T21 et 2 ordinaires) et présentées dans le bruit en modalités auditive, visuelle et audiovisuelle. Les résultats confirment la perte d’intelligibilité en modalité auditive dans le cas de locuteurs porteurs de T21. Pour les deux locuteurs impliqués, l’intelligibilité visuelle est néanmoins équivalente à celle des deux locuteurs ordinaires et compensent le déficit d’intelligibilité auditive. Ces résultats suggèrent l’apport de la modalité visuelle vers une meilleure intelligibilité des personnes porteuses de T21.

Perception des consonnes géminées en japonais langue étrangère par des apprenants francophones (Perception of geminate consonants in Japanese as a foreign language by French-speaking learners)
Akiko Takemura | Takeki Kamiyama

Le japonais présente une opposition phonémique entre les obstruantes simples et géminées, qui pose des difficultés aux apprenants non-natifs tant au niveau de la perception que de la production, notamment quand une opposition similaire est absente dans la langue des apprenants. La discrimination perceptive de cette opposition a été étudiée chez 19 apprenants francophones de deux niveaux différents de compétence et chez 6 auditeurs natifs à l’aide d’une expérience AXB avec des non-mots dysyllabiques prononcés par 2 locuteurs natifs du japonais de Tokyo. Les résultats montrent une différence significative entre les apprenants (10,91% d’erreurs en moyenne) et les natifs (3,86% en moyenne). Le taux d’erreurs était plus élevé quand l’accent lexical du mot testé était du type HB (haut-bas) que BH. Les auditeurs natifs ont également montré un taux d’erreur plus élevé pour la fricative /s/, et aussi quand la consonne est entourée des voyelles fermées /i/ et /u/.

La perception des séquences consonantiques non-natives par les locuteurs monolingues de mandarin (Perception of non-native consonant sequences by Mandarin monolingual speakers)
Qianwen Guan | Harim Kwon

Cette étude examine le rôle de la structure phonotactique native et des facteurs phonétiques dans la perception des séquences consonantiques non-natives. Des locuteurs monolingues de mandarin ont été testés dans les deux expériences suivantes: dans la première expérience, les locuteurs ont du décider s’ils entendaient une voyelle entre deux consonnes en écoutant des séquences intervocaliques-CC (akta) et leurs contrôles CVC (akata). Les participants mandarins monolingues ont tendance à percevoir une voyelle entre deux consonnes dans les deux séquences CC et CVC. Mais le pourcentage de la voyelle perçue varie selon les différentes séquences. Dans la deuxième expérience, les mêmes participants ont écouté des séquences CC initiales et intervocaliques (ktapa, akta) ainsi que CVC (katapa, akata) et les ont transcrites en Pinyin. Les stratégies observées dans la transcription: l’épenthèse, la métathèse, l’omission de C1 et celle de C2, montrent que les participants sont sensibles aux facteurs phonétiques. Les résultats des deux expériences suggèrent que la phonotactique native ainsi que des facteurs phonétiques affectent la perception des séquences non-natives.

Perception et production de voyelles de l’anglais par des apprenants francophones : effet d’entraînements en perception et en production (Perception and production of English vowels by French learners: effect of perception and production trainings)
Jennifer Krzonowski | Emmanuel Ferragne | François Pellegrino

Cette étude propose de tester l’effet de deux entraînements, en perception et en production, sur l’acquisition de voyelles de l’anglais britannique par des francophones. L’étude se focalise sur deux régions de l’espace acoustique pour lesquelles plusieurs catégories phonologiques existent en anglais alors qu’une seule existe en français. Trois groupes ont été constitués : l’un recevant un entraînement de type High Variability Perceptual Training, un second recevant un entraînement en production et le troisième constituait un groupe contrôle ne recevant pas d’entraînement. Les performances des participants ont été évaluées avant et après entraînement en perception et en production. Les résultats semblent montrer un effet de l’entraînement en perception sur les performances en perception et en production et un effet plus restreint de l’entraînement en production. Mais leur interprétation reste difficile du fait d’un effet test/re-test observé sur le groupe contrôle.

Perception native des voyelles catalanes produites par des locutrices multilingues (Native perception of Catalan vowels uttered by female multilingual speakers)
Cynthia Magnen | Josefina Carrera-Sabaté | Pascal Gaillard

Cette étude porte sur les voyelles catalanes produites par des adolescentes multilingues en CatalanCastillan ayant pour langue maternelle soit le Catalan, soit le Roumain, soit l’Arabe du Maghreb. Nous proposons à vingt-et-un auditeurs catalanophones natifs un Test de Catégorisation Libre des voyelles produites dans ce contexte multilingue. Ce faisant, nous testons le modèle Automatic Selective Perception (ASP - Strange, 2011) qui stipule qu’en fonction de la variabilité des stimuli et de la tâche proposée, les auditeurs réalisent un traitement des stimuli selon un mode phonétique ou phonologique. Les résultats indiquent que le traitement des stimuli est double : les voyelles moyennes sont traitées selon un mode phonétique, tandis que les voyelles extrêmes sont traitées selon un mode phonologique. L’assimilation de voyelles d’une catégorie vocalique à une autre informe sur la qualité des réalisations non natives et témoigne de l’influence de la L1.

Peut-on caractériser globalement une « qualité d’acte expressif » : de « breathy voice » à « breathy turn taking » dans la glu socio-affective de l’interaction humain-robot ? (Multidimensional prosodic style, as characteristics of the “gluing” relation process: extension of “breathiness” from voice quality to “turn talk quality”)
Liliya Tsvetanova | Véronique Aubergé | Yuko Sasa

L’interaction face-à-face est considérée ici comme un système émergeant, englobant les soussystèmes en synchronie des interactants inscrits, à travers leur personnalité, dans leur rôle social, leurs motivations, leurs intentions, leurs états socio-affectifs. L’interaction est instanciée par une « glu » socio-affective pour laquelle nous testons une dimension altruiste, orthogonale à la dimension de dominance, expérimentée dans le scénario écologique Emoz (Sasa et Aubergé, 2014) pour des personnes âgées donnant des commandes domotiques de forme imposée à un robot. Le dialogue est conduit par des feedbacks socio-affectifs primitifs du robot supposés « gluer » progressivement. Nous montrons que la variation faite par les sujets autour des commandes référentes, non seulement suit un décours dynamique de « glu » progressive, mais que le comportement communicatif des sujets est globalement inscrit dans des caractéristiques d’« intimité-care» d’une production breathy de toutes les modalités (voix, prosodie, paraphrasage lexico-morpho-syntaxique, timing, posture, direction du regard, proxémie, déplacement).

Phonétisation statistique adaptable d’énoncés pour le français (Adaptive statistical utterance phonetization for French ⇤ )
Gwénolé Lecorvé | Damien Lolive

Les méthodes classiques de phonétisation d’énoncés concatènent les prononciations hors-contexte des mots. Ce type d’approches est trop faible pour certaines langues, comme le français, où les transitions entre les mots impliquent des modifications de prononciation. De plus, cela rend difficile la modélisation de stratégies de prononciation globales, par exemple pour modéliser un locuteur ou un accent particulier. Pour palier ces problèmes, ce papier présente une approche originale pour la phonétisation du français afin de générer des variantes de prononciation dans le cas d’énoncés. Par l’emploi de champs aléatoires conditionnels et de transducteurs finis pondérés, cette approche propose un cadre statistique particulièrement souple et adaptable. Cette approche est évaluée sur un corpus de mots isolés et sur un corpus d’énoncés prononcés.

Pics mélodiques prétoniques en portugais brésilien : une étude quantitative (Pre-stress pitch peaks in Brazilian Portuguese: a quantitative study)
Plínio Barbosa | Philippe Boula de Mareüil

Le présent travail porte sur un trait prosodique assez typique du portugais brésilien : un pic mélodique en position prétonique en fin d’énoncé déclaratif. Il vise à quantifier le phénomène, à partir d’enregistrements de cinq hommes et cinq femmes de l’état de São Paulo, en lecture et en narration. Il en résulte que des montées sur les prétoniques de 4 demi-tons suivies de descentes de 8 demi-tons, en moyenne, s’observent dans les deux styles de parole, chez les femmes. Chez les hommes, ces valeurs sont respectivement de 3 et 7 demi-tons. Ces montées-descentes d’une tierce et d’une quinte, respectivement, peuvent donner au portugais brésilien cette musicalité particulière et, puisque les descentes sont plus rapides chez les femmes, elles ouvrent des perspectives sociolinguistiques intéressantes.

Préservation du pattern syllabique iambique dans la production des locuteurs dysarthriques (The preservation of iambic syllabic pattern in the production of dysarthric speakers)
Laurianne Georgeton | Meunier Christine

Ce travail vise à évaluer une éventuelle dégradation du pattern rythmique iambique dans la production de locuteurs atteints de différents types de dysarthrie. Ce pattern se traduit par une structure court-long dans les mots dissyllabiques. Cette structure est très robuste en français aussi bien en production qu¶en perception. Par ailleurs, chez des locuteurs dysarthriques, des perturbations prosodiques et donc rythmiques sont souvent observées. Ainsi, ces patients peuventils maintenir ce pattern iambique dans leurs productions? Les résultats montrent que le pattern rythmique iambique est bien conservé chez toutes les populations dysarthriques aussi bien en lecture qu¶en parole spontanée. Ce pattern est en général plus marqué en spontané qu¶en lecture et la population contrôle se démarque des populations dysarthriques par un pattern plus marqué en lecture, mais plus encore en spontané. Ce pattern rythmique semble donc robuste même s¶il semble être affecté quand la sévérité de la maladie augmente.

Production des voyelles parlées et chantées dans le Cantu in Paghjella (Production of spoken and sung vowels in Cantu in Paghjella)
Claire Pillot-Loiseau | Patrick Chawah | Angélique Amelot | Grégoire Bachman | Catherine Herrgott | Martine Adda-Decker | Lise Crevier-Buchman

Quelles sont les caractéristiques acoustiques et articulatoires des voyelles parlées et chantées du Cantu in Paghjella (polyphonie corse à trois voix), en fonction du chanteur, de la voyelle et de la fréquence fondamentale ? L’analyse acoustique des quatre premiers formants de la parole au chant et celle des mouvements articulatoires lingual et labial, montrent généralement (i) une significative augmentation de F1 avec abaissement lingual mais fermeture labiale, en lien avec une corrélation entre F0 et F1 ; (ii) une baisse de F2 pour les voyelles antérieures, une postériorisation linguale et un recul de l’ombre hyoïdienne uniquement pour le bassu ; (iii) une nette augmentation de F3 et F4 surtout chez le bassu ; (iv) une augmentation du Singing Power Ratio surtout chez les bassu et secunda. Ses valeurs sont toutefois inférieures à celles de chanteurs lyriques, et ne correspondant pas comme ces derniers à un rapprochement de F3 et F4.

La prosodie du focus dans les parlers algérois et oranais (The prosody of focus in Algiers and Oran dialects)
Ismaël Benali

Le but de cette étude est d’étudier les caractéristiques prosodiques de différents types de focus dans les parlers algérois et oranais. Il ressort de l’analyse acoustique des productions des locuteurs que les récurrences des schèmes prosodiques qui distinguent les deux parlers sont observées dans deux types de focus : le focus étroit d’insistance quand il est placé à la frontière d’un groupe intonatif et le focus interrogatif. Le premier est réalisé dans le parler algérois par un contour montant descendant. Dans le parler oranais, il est produit par un contour plat ou légèrement montant ou descendant. On retrouve, dans le focus interrogatif, le mêmes contour intonatif plus amplifié du focus d’insistance chez les Algérois alors que chez les Oranais la dernière syllabe est toujours montante précédée d’une descente. Le focus de contraste est produit différemment dans le même dialecte avec plus d’allongement en oranais. La réalisation du focus large n’est pas distinctive.

Que disents nos silences? Apport des données acoustiques, articulatoires et physiologiques pour l’étude des pauses silencieuses (What do our silences say? Contribution of acoustic, articulatory and physiological data to the study on silent pauses)
Muriel Lalain | Thierry Legou | Camille Fauth | Fabrice Hirsch | Ivana Didirkova

Si la rhétorique s’est intéressée très tôt à la pause, il a fallu attendre le XXème siècle pour que d’autres disciplines – la psycholinguistique, le traitement automatique des langues, la phonétique – accordent à ces moments de silence l’intérêt qu’ils méritent. Il a ainsi été montré que ces ruptures dans le signal acoustique, loin de signer une absence d’activité, constituaient en réalité le lieu d’une activité physiologique (la respiration) et/ou cognitive (planification du discours) qui participent tout autant au message que la parole elle-même. Dans cette étude pilote, nous proposons des observations et des pistes de réflexions à partir de l’analyse des pauses silencieuses dans un corpus de parole lue et semi dirigée. Nous mettons notamment en évidence l’apport de l’analyse conjointe de données acoustiques, articulatoires (EMA) et physiologiques (respiratoires) pour l’identification, parmi les pauses silencieuses, des pauses respiratoires, syntaxiques et d’hésitation.

Que nous apprennent les gros corpus sur l’harmonie vocalique en français ? (What can we learn from big speech corpora about French vowel harmony?)
Giuseppina Turco | Cécile Fougeron | Nicolas Audibert

Afin de mieux identifier le poids relatif des différents facteurs décrits dans la littérature comme influençant le phénomène d’harmonie vocalique (HV) en français, 33k mots extraits de deux corpus de parole continue et présentant un contexte d’HV possible V1C(C)V2 (V1∈e,ɛ,o,ɔ) sont analysés. Le degré d’HV est mesuré en termes d’abaissement du F1 de V1 induit par la présence d’une V2 /+haut/ (fermée ou mi-fermée) par rapport à une V2 /-haut/ (ouverte ou mi-ouverte). Les résultats montrent une HV plus importante pour les voyelles moyennes postérieures que pour les antérieures, et plus faible lorsque l’orthographe favorise une prononciation mi-fermée de V1. Comme attendu, l’HV est plus forte quand V1 est séparé de V2 par une consonne labiale vs. linguale ou par un cluster consonantique sous-jacent vs. un cluster résultant de la chute d’un schwa. En revanche, le style de parole (conversationnelle vs. journalistique) a un effet plus nuancé que celui attendu.

Quelle(s) mesure(s) de similarité prosodique comme évaluation de l’imitation ? (Which measure(s) of prosodic similarity as an evaluation of imitation?)
Olivier Nocaudie | Corine Astésano

La performance imitative des locuteurs varie de celle du professionnel, expert, à celle du naïf, plus ou moins talentueux. L’étude de l’imitation souligne la difficulté pour trouver des indices mesurables de la réussite d’une imitation. Dans cette étude exploratoire, des contours de f0 recueillis au fil de tâches d’imitation sont testés au moyen d’une double approche : mesure objective par le biais de deux mesures de la similarité prosodique reportées dans la littérature et évaluation perceptive par un panel de 15 auditeurs naïfs. Nos premiers résultats indiquent une bonne corrélation entre les deux approches et soulèvent la question du choix de l’indice mesurable qui rendrait le mieux compte d’une imitation au niveau tonal. Ils soulignent également la variabilité interindividuelle des comportements imitatifs en parole tout en ouvrant des perspectives intéressantes dans le domaine de la formation à la phonétique corrective par la Méthode Verbotonale.

Quels tests d’intelligibilité pour évaluer les troubles de production de la parole ? (What kind of intelligibility test to assess speech production disorders?)
Alain Ghio | Laurence Giusti | Emilie Blanc | Serge Pinto | Muriel Lalain | Danièle Robert | Corine Fredouille | Virginie Woisard

L’intelligibilité de la parole se définit comme le degré de précision avec lequel un message est compris par un auditeur. A ce titre, la perte d’intelligibilité représente souvent une plainte importante pour les patients atteints de troubles de production de la parole, puisqu’elle participe à la diminution de la qualité de vie au niveau communicationnel. Plusieurs outils existent actuellement pour évaluer l’intelligibilité mais aucun ne satisfait pleinement les contraintes cliniques. Dans une première étude, nous avons adapté au français la version 2 du Frenchay Dysarthria Assessment, un test reconnu dans le milieu anglo-saxon pour l’évaluation de locuteurs dysarthriques. Nous avons créé le corpus de mots français en nous appuyant sur les critères définis dans le FDA-2 puis nous avons testé le protocole sur une cinquantaine de locuteurs. Les résultats sont satisfaisants mais divers biais méthodologiques nous ont conduits à poursuivre notre démarche en proposant des listes de pseudo-mots apparentant le test à du décodage acoustico-phonétique.

Réalisation phonétique et contraste phonologique marginal : une étude automatique des voyelles du roumain (Phonetic realization and marginal phonemic contrast : an automatic study of the Romanian vowels)
Ioana Vasilescu | Margaret Renwick | Camille Dutrey | Lori Lamel | Biana Vieru

Cet article est dédié à l’analyse acoustique des voyelles du roumain : des productions en parole continue sont comparées à des prononciations “de laboratoire”. Les objectifs sont : (1) décrire les traits acoustiques des voyelles en fonction du style de parole ; (2) estimer la relation entre traits acoustiques et contrastes phonémiques de la langue ; (3) estimer dans quelle mesure l’étude de l’oral apporte des éclairages au sujet des attributs phonémiques des voyelles centrales [2] et [1], dont le statut (phonèmes vs allophones) est controversé. Nous montrons que les traits acoustiques sont comparables pour la parole journalistique vs contrôlée pour l’ensemble de l’inventaire sauf [2] et [1]. Dans la parole contrôlée [2] et [1] sont distinctes, mais confondues en faveur du timbre [2] à l’oral. La confusion de timbres n’est pas source d’inintelligibilité car [2] et [1] sont en distribution quasicomplémentaire. Ce résultat apporte des éclairages sur la question du contraste phonémique graduel et marginal (Goldsmith, 1995; Scobbie & Stuart-Smith, 2008; Hall, 2013).

La reconnaissance des mots dans la parole accentuée : Une étude en laboratoire et à l’extérieur. (Mispronunciations slow down word recognition: A study using touchscreens in the lab and the real world)
Delphine Deï | Page Piccinini | Isabelle Dautriche | Marieke Van Heugten | Alejandrina Cristia

Des travaux récents suggèrent que les enfants et les adultes sont initialement ralentis dans leur compréhension des mots qui n’ont pas été prononcés de façon standard. Néanmoins, quand ils font face à un interlocuteur qui à un discours accentué, ils développent rapidement des stratégies spécifiques qui leur permettent de comprendre même des prononciations atypiques. Cependant, ces résultats sont typiquement issus de recherches en laboratoire, où l’attention des participants se concentre sur une tâche unique qui leur demande peu de ressources. Afin de dépasser ces limitations, nous avons mené une expérience de reconnaissance de mots sur tablette tactile, en évaluant des enfants et des adultes, en laboratoire et dans l’environnement naturel de chaque groupe. Nous avons constaté que des déviations de prononciation dans la parole accentuée ralentissent la reconnaissance des mots, chez des enfants et adultes, tant dans le laboratoire que dans des environnements naturels.

Répartition des phonèmes réduits en parole conversationnelle. Approche quantitative par extraction automatique (The distribution of reduced phoneme in conversational speech)
Meunier Christine | Brigitte Bigi

Cette étude vise à mieux comprendre la répartition des réductions phonétiques présentes dans la production de parole. Nous avons sélectionné l! ensemble des phonèmes les plus courts (30ms) à partir de l! alignement d! un corpus de parole conversationnelle. Cette version contenant uniquement les phonèmes courts (V1) est comparée à la version contenant l! alignement de tous les phonèmes du corpus (V0). Les deux versions sont mises en relation avec l! annotation des mots et de leur catégorie syntaxique. Les résultats montrent que les liquides, les glissantes et les voyelles fermées sont plus représentées dans V1 que dans V0. Par ailleurs, la nature et la catégorie syntaxique des mots modulent la distribution des phonèmes en V1. Ainsi, la nature instable du /l/, ainsi que sa présence dans de très nombreux pronoms et déterminants, en fait le phonème le plus marqué par la réduction. Enfin, la fréquence des mots semble montrer des effets contradictoires.

Réseau de neurones convolutif pour l’évaluation automatique de la prononciation (CNN-based automatic pronunciation assessment of Japanese speakers learning French )
Thomas Pellegrini | Lionel Fontan | Halima Sahraoui

Dans cet article, nous comparons deux approches d’évaluation automatique de la prononciation de locuteurs japonophones apprenant le français. La première, l’algorithme standard appelé Goodness Of Pronunciation (GOP), compare les vraisemblances obtenues lors d’un alignement forcé et lors d’une reconnaissance de phones sans contrainte. La deuxième, nécessitant également un alignement préalable, fait appel à un réseau de neurones convolutif (CNN) comme classifieur binaire, avec comme entrée des trames de coefficients spectraux. Les deux approches sont évaluées sur deux phonèmes cibles /R/ et /v/ du français, particulièrement difficiles à prononcer pour des Japonophones. Les paramètres du GOP (seuils) et du CNN sont estimés sur un corpus de parole lue par des locuteurs natifs du français, dans lequel des erreurs de prononciation artificielles sont introduites. Un gain de performance relatif de 13,4% a été obtenu avec le CNN, avec une précision globale de 72,6%, sur un corpus d’évaluation enregistré par 23 locuteurs japonophones.

Rôle des contextes lexical et post-lexical dans la réalisation du schwa : apports du traitement automatique de grands corpus (Role of lexical and post-lexical contexts in French schwa realisations : benefits of automatic processing of large corpora )
Yaru Wu | Martine Adda-Decker | Cécile Fougeron

Le rôle du contexte est connu dans la réalisation ou non du schwa en français. Deux grands corpus oraux de parole journalistique (ETAPE) et de parole familière (NCCFr), dans lesquels la realisation de schwa est déterminée à partir d’un alignement automatique, ont été utilisés pour examiner la contribution du contexte au sein du mot contenant schwa (lexical) vs. au travers de la frontière avec le mot précédent (post-lexical). Nos résultats montrent l’importance du contexte pré-frontière dans l’explication de la chute du schwa dans la première syllabe d’un mot polysyllabique en parole spontanée. Si le mot précédant se termine par une consonne, nous pouvons faire appel à la loi des trois consonnes et au principe de sonorité pour expliquer des différences de comportement en fonction de la nature des consonnes en contact.

Des Réseaux de Neurones avec Mécanisme d’Attention pour la Compréhension de la Parole (Exploring the use of Attention-Based Recurrent Neural Networks For Spoken Language Understanding )
Edwin Simonnet | Paul Deléglise | Nathalie Camelin | Yannick Estève

L’étude porte sur l’apport d’un réseau de neurones récurrent (Recurrent Neural Network RNN) bidirectionnel encodeur/décodeur avec mécanisme d’attention pour une tâche de compréhension de la parole. Les premières expériences faites sur le corpus ATIS confirment la qualité du système RNN état de l’art utilisé pour cet article, en comparant les résultats obtenus à ceux récemment publiés dans la littérature. Des expériences supplémentaires montrent que les RNNs avec mécanisme d’attention obtiennent de meilleures performances que les RNNs récemment proposés pour la tâche d’étiquetage en concepts sémantiques. Sur le corpus MEDIA, un corpus français état de l’art pour la compréhension dédié à la réservation d’hôtel et aux informations touristiques, les expériences montrent qu’un RNN bidirectionnel atteint une f-mesure de 79,51 tandis que le même système intégrant le mécanisme d’attention permet d’atteindre une f-mesure de 80,27.

Un Sous-espace Thématique Latent pour la Compréhension du Langage Parlé (A Latent Topic-based Subspace for Spoken Language Understanding)
Mohamed Bouaziz | Mohamed Morchid | Pierre-Michel Bousquet | Richard Dufour | Killian Janod | Waad Ben Kheder | Georges Linarès

Les applications de compréhension du langage parlé sont moins performantes si les documents transcrits automatiquement contiennent un taux d’erreur-mot élevé. Des solutions récentes proposent de projeter ces transcriptions dans un espace de thèmes, comme par exemple l’allocation latente de Dirichlet (LDA), la LDA supervisée ainsi que le modèle author-topic (AT). Une représentation compacte originale, appelée c-vector, a été récemment introduite afin de surmonter la difficulté liée au choix de la taille de ces espaces thématiques. Cette représentation améliore la robustesse aux erreurs de transcription, en compactant les différentes représentations LDA d’un document parlé dans un espace réduit. Le défaut majeur de cette méthode est le nombre élevé de sous-tâches nécessaires à la construction de l’espace c-vector. Cet article propose de corriger ce défaut en utilisant un cadre original fondé sur un espace de caractéristiques robustes de faible dimension provenant d’un ensemble de modèles AT considérant à la fois le contenu du dialogue parlé (les mots) et la classe du document. Les expérimentations, conduites sur le corpus DECODA, montrent que la représentation proposée permet un gain de plus de 2.5 points en termes de conversations correctement classifiées.

Stratégies d’adaptation de la vitesse d’articulation lors de conversations spontanées entre locuteurs natifs et non-natifs (Adaptation of articulation rate in spontaneous speech between native speakers and L2 learners)
Barbara Kühnert | Tanja Kocjančič Antolík

Cet article examine la vitesse d’articulation dans un corpus de conversations spontanées entre locuteurs natifs et non-natifs. L’objectif est d’étudier (i) dans quelle mesure les locuteurs natifs adaptent dans leur L1 leur vitesse d’articulation aux apprenants L2 et (ii) dans quelle mesure les deux locuteurs en interaction ont tendance à rapprocher ou à dissocier leurs caractéristiques temporelles au cours d’une conversation. Les données proviennent du corpus SITAF d’interactions tandem en anglais-français. A ce jour, 10 sujets ont été analysés, chacun ayant été enregistré dans trois conditions différentes : en utilisant sa L1 avec un autre locuteur natif, en utilisant sa L1 avec un apprenant L2, et en utilisant sa L2 avec un interlocuteur parlant sa propre L1. Les résultats indiquent que les propriétés rythmiques de la L1 ont une nette influence sur les variations de la vitesse d’articulation des locuteurs non seulement lorsqu’ils interagissent dans leur L2 mais également dans leurs stratégies d’adaptation lorsqu’ils interagissent avec des apprenants.

Stress, charge cognitive et signal de parole : étude exploratoire auprès de pilotes de chasse. (Stress, cognitive load and speech signal : an exploratory study among fighter pilots)
Stavaux Luc | Margaux Albart | Véronique Delvaux | Kathy Huet | Myriam Piccaluga | Bernard Harmegnies

Cet article traite des effets de la charge cognitive sur la fréquence fondamentale de pilotes de F-16 placés dans un scénario de vol de nuit. La charge cognitive a été estimée à l’aide de paramètres liés à la tâche (hétéro-évaluation), à l’individu (anxiété, auto-évaluation du stress ressenti) et à la situation (simulation contrôlée). Nos résultats montrent que l’écart mélodique est un bon candidat pour évaluer le niveau de la charge cognitive, même si la relation entre eux présente des profils individuels spécifiques. La création d’une typologie des situations de communication, l’adjonction d’autres indices acoustiques et le croisement avec des données physiologiques constituent les perspectives de cette étude.

Structure prosodique des langues romanes (Prosodic Structures of Romance Languages)
Philippe Martin

La description phonologique de la structure prosodique des langues romanes apparait similaire lorsque les interactions entre les accents mélodiques est prise en compte (ce qui n’est pas le cas dans la théorie autosegmentale-métrique). L’analyse acoustique de plus de 2600 énoncés lus et spontanés suggère que la réalisation des accents mélodiques, décrits en termes de contours mélodiques plutôt que de cibles tonales, indiquent avec les contours de frontière, des relations de dépendance « vers la droite » entre groupes accentuels. Ces relations permettent par incrémentation successive dans l’axe du temps la reconstitution par l’auditeur de la structure prosodique voulue par le locuteur. Dans ce cadre théorique, les langues romanes (italien, espagnol, catalan, portugais, roumain) utilisent les mêmes contours phonologiques pour indiquer les relations de dépendance menant au codage de la structure prosodique. Le français, dépourvu d’accent lexical, utilise un système de contours différent.

Suivi de contours d’articulateurs orofaciaux à partir d’IRM dynamique (Orofacial articulators tracking from dynamic MRI)
Mathieu Labrunie | Pierre Badin | Laurent Lamalle | Coriandre Vilain | Louis-Jean Boë | Jens Frahm | Peter Birkholz

Nous présentons une méthode de prédiction de contours médiosagittaux des organes orofaciaux de la parole et la déglutition à partir d’images IRM dynamiques. Pour chaque locuteur, un ensemble de 60 images représentatives pour lesquelles les contours ont été tracés manuellement permet d’entraîner des modèles ACP d’images et de contours articulatoires, ainsi qu’un modèle multilinéaire qui prédit les paramètres des contours à partir des paramètres des images. Les contours obtenus sont ensuite corrigés par des modèles de forme actifs (ASM) modifiés utilisant les informations locales de profils d’intensité de pixels le long des normales aux contours. Les performances de cette méthode (erreurs moyennes « points à contour » entre 0,57 et 0,70 mm) sont insensibles au type de séquence IRM (écho de gradient avec échantillonnage synchronisé ou écho de gradient radial hautement sous-échantillonné), sont meilleures que celles de la littérature, et rendent possible le traitement de volumineux corpus d’images IRM dynamiques.

Sur les traces acoustiques de /ʃ/ et /ç/ en allemand L2 (Acoustic tracing of /S/ and /ç/ in German L2)
Jane Wottawa | Martine Adda-Decker

Les apprenants français de l’allemand ont des difficultés à produire la fricative palatale sourde allemande /ç/ (Ich-Laut) et ont tendance à la remplacer par la fricative post-alvéolaire /S/. Nous nous demandons si avec des mesures acoustiques ces imprécisions de production peuvent être quantifiées d’une manière plus objective. Deux mesures acoustiques ont été examinées afin de distinguer au mieux /S/ et /ç/ dans un contexte VC en position finale de mot dans des productions de locuteurs germanophones natifs. Elles servent ensuite à quantifier les difficultés de production des apprenants français. 285 tokens de 20 locuteurs natifs et 20 locuteurs L2 ont été analysés. Les mesures appliquées sont le centre de gravité spectral et des rapports d’intensité par bande de fréquence. Sur les productions de locuteurs natifs, les résultats montrent que la mesure la plus fiable pour distinguer acoustiquement /S/ et /ç/ est le ratio d’intensité entre fréquences hautes (4-7 kHz) et basses (1-4 kHz). Les mesures confirment également les difficultés de production des locuteurs natifs français.

Syllabe CVC et cycle mandibulaire : une étude articulatoire des asymétries. Le cas du vietnamien (CVC syllable and jaw cycle: an articulatory study of asymmetries)
Thi Thuy Hien Tran | Nathalie Vallée | Silvain Gerber

Cette étude se situe dans le cadre d’un projet qui tente d’établir le lien entre asymétries phonétique et phonologique de la syllabe, plus spécifiquement le lien entre caractéristiques du geste mandibulaire et MOP, Maximum Onset Principle, principe phonologique empirique qui affecte les segments consonantiques à la position initiale de syllabe plutôt que finale. Plusieurs travaux antérieurs sur l’anglais américain ont montré l’existence d’asymétries au niveau des phases du cycle mandibulaire qui pourraient expliquer certaines tendances des structures syllabiques et notamment la structure canonique CV (plutôt que VC). Dans ce projet, une première étude sur le français a confirmé un patron d’asymétries mais inverse à celui trouvé pour l’anglais. Nous présentons les premiers résultats obtenus pour le vietnamien. Les résultats sont discutés dans deux cadres théoriques, Frame/Content Theory et Articulatory Phonology, le premier attribuant un rôle fondamental au geste mandibulaire dans la phonologie de la syllabe, le second ne lui concédant qu’un rôle secondaire.

De l’utilisation de descripteurs issus de la linguistique computationnelle dans le cadre de la synthèse par HMM (Toward the use of information density based descriptive features in HMM based speech synthesis)
Sébastien Le Maguer | Bernd Moebius | Ingmar Steiner | Damien Lolive

Durant les dernières décennies, la modélisation acoustique effectuée par les systèmes de synthèse de parole paramétrique a fait l’objet d’une attention particulière. Toutefois, dans la plupart des systèmes connus, l’ensemble des descripteurs linguistiques utilisés pour représenter le texte reste identique. Plus specifiquement, la modélisation de la prosodie reste guidée par des descripteurs de bas niveau comme l’information d’accentuation de la syllabe ou bien l’étiquette grammaticale du mot. Dans cet article, nous proposons d’intégrer des informations basées sur la prédictibilité d’un évènement (la syllabe ou le mot). Plusieurs études indiquent une corrélation forte entre cette mesure, fortement présente dans la linguistique computationnelle, et certaines spécificités lors de la production humaine de la parole. Notre hypothèse est donc que l’ajout de ces descripteurs améliore la modélisation de la prosodie. Cet article se focalise sur une analyse objective de l’apport de ces descripteurs sur la synthèse HMM pour la langue anglaise et française.

Utilisation des représentations continues des mots et des paramètres prosodiques pour la détection d’erreurs dans les transcriptions automatiques de la parole (Combining continuous word representation and prosodic features for ASR error detection)
Sahar Ghannay | Yannick Estève | Nathalie Camelin | Camille Dutrey | Fabian Santiago | Martine Adda-Decker

Récemment, l’utilisation des représentations continues de mots a connu beaucoup de succès dans plusieurs tâches de traitement du langage naturel. Dans cet article, nous proposons d’étudier leur utilisation dans une architecture neuronale pour la tâche de détection des erreurs au sein de transcriptions automatiques de la parole. Nous avons également expérimenté et évalué l’utilisation de paramètres prosodiques en suppléments des paramètres classiques (lexicaux, syntaxiques, . . .). La principale contribution de cet article porte sur la combinaison de différentes représentations continues de mots : plusieurs approches de combinaison sont proposées et évaluées afin de tirer profit de leurs complémentarités. Les expériences sont effectuées sur des transcriptions automatiques du corpus ETAPE générées par le système de reconnaissance automatique du LIUM. Les résultats obtenus sont meilleurs que ceux d’un système état de l’art basé sur les champs aléatoires conditionnels. Pour terminer, nous montrons que la mesure de confiance produite est particulièrement bien calibrée selon une évaluation en terme d’Entropie Croisée Normalisée (NCE).

Variabilité des syllabes réalisées par des apprenants de l’anglais (Analysing syllable variability in a French learner corpus of English)
Nicolas Ballier | Philippe Martin | Maelle Amand

Cette contribution analyse la segmentation syllabique des francophones du corpus d’apprenant d’anglais ANGLISH (Tortel 2009). A partir d’une méthode d’alignement par alignement forcé, on montre la pertinence d’une analyse de l’interlangue fondée sur la comparaison des durées des syllabes. La comparaison des réalisations est ici centrée sur une typologie des syllabes fondée sur des propriétés distributionnelles, accentuelles et où l’interlangue tient sa place (risques d’isosyllabicité les plus manifestes pour les réalisations des francophones). La variabilité des réalisations des syllabes est appréciée en fonction des propriétés positionnelles, accentuelles et structurelles des syllabes. L’étude démontre l’intérêt d’une approche fonctionnelle des syllabes, plus pertinente que les intervalles interconsonantiques et intervocaliques inspirés de Ramus et al. (1999) pour la discrimination du niveau des locuteurs.

Variabilité du geste palatal : effet du locuteur, de la structure syllabique et de l’accent sur différents types de consonnes en russe (Palatal gesture variability: speaker, stress and syllabic structure effects in Russian)
Ekaterina Biteeva Lecocq | Nathalie Vallée | Silvain Gerber | Christophe Savariaux

Les linguistes se sont régulièrement penchés sur la description du trait consonantique [+palatal] ; pourtant, le manque de données expérimentales constitue un obstacle au classement des consonnes concernées. Peu de travaux ont abordé la question du contrôle du geste lingual dans l’articulation palatale. Cependant, ils montrent que celui-ci semble bien plus complexe que dans d’autres consonnes. En russe, la plupart des consonnes possèdent une contrepartie palatalisée ce qui permet d’étudier les différences de réalisation du trait palatal au sein du même système. Nous proposons ici, à partir de données acquises avec un articulographe électromagnétique, de caractériser la variabilité du geste palatal impliqué dans la réalisation de différents types de consonnes palatalisées et prépalatales du russe en fonction des facteurs locuteur, accent et structure syllabique.

Variation prosodique et traduction poétique (LSF/français) : Que devient la prosodie lorsqu’elle change de canal ? (Prosodic variation and poetic translation (LSF/French): What happens to prosody with a channel change?)
Fanny Catteau | Marion Blondel | Coralie Vincent | Patrice Guyot | Dominique Boutet

L’étude de la prosodie des langues vocales repose en partie sur la mesure des paramètres de durée, d’intensité et de fréquence sonores. Les langues des signes, quant à elles, empruntent le canal visuogestuel et mobilisent des articulateurs manuels et non manuels (buste, tête, éléments du visage). Notre étude a pour objectif d’établir des outils permettant de comparer, au niveau prosodique, la traduction en français de séquences poétiques et la version originale en langue des signes française (LSF). Nous avons recueilli des données vidéo augmentées de capture de mouvement – qui offrent plusieurs pistes d’exploration des paramètres prosodiques pour la LSF – ainsi que des données audio des traductions en français – qui révèlent les stratégies des interprètes pour interpréter la variation prosodique.

Voix de femmes, voix d’hommes: une étude du voice onset time, de la répartition consonnes/voyelles et du débit de parole chez des locuteurs francophones et anglophones américains (Female and male speech: a study of VOT, C/V temporal distribution and speech rate in Parisian French and American English speakers)
Erwan Pépiot

________________________________________________ La présente étude est une analyse acoustique de mots et pseudo-mots de type /CVCV/ produits par des locuteurs anglophones du nord-est des États-Unis (5 femmes, 5 hommes) et des francophones parisiens (5 femmes, 5 hommes). Le VOT des consonnes occlusives initiales, la durée des énoncés, ainsi que la répartition temporelle consonnes/voyelles ont été mesurés. Des différences inter-genres significatives ont été observées dans les deux langues sur chacun des paramètres testés : le contraste de VOT entre les occlusives sourdes et voisées s’est révélé plus important chez les locutrices, le débit de parole plus élevé chez les locuteurs masculins, et la proportion occupée par les consonnes plus importantes chez les femmes. Ces résultats suggèrent une tendance à la recherche d’une plus grande intelligibilité chez les locutrices. Les différences acoustiques femmes-hommes seraient donc en partie construites socialement.

Voyelles moyennes en français calédonien : propriétés phonétiques acoustiques (Mid vowels in New Caledonian French: Acoustic phonetic properties)
Eleanor Lewis

Cette étude examine la réalisation des voyelles moyennes /e, ɛ, ø, œ, o, ɔ/ par dix locuteurs du français calédonien. Les propriétés formantiques de ces voyelles sont analysées en ce qui concerne le genre de syllabe dans lesquelles elles se produisent. La durée des voyelles mi-fermées et miouvertes produites en paires minimales est statistiquement comparée. Les résultats indiquent que les locuteurs de cette variété ont tendance à respecter catégoriquement la loi de position, tel que les variantes mi-fermées se présentent dans les syllabes ouvertes et les variantes mi-ouvertes se présentent dans les syllabes fermées. Il existe pourtant une certaine variation individuelle concernant le niveau de conformité à cette loi. Cette étude met également en avant des indices de l’antériorisation du /ɔ/ (et du /o/ en syllabe fermée), une caractéristique qui a été documentée dans d’autres variétés du français.

bib (full) Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)

Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Articles longs)
Laurence Danlos | Thierry Hamon

Apprentissage d’analyseur en dépendances cross-lingue par projection partielle de dépendances (Cross-lingual learning of dependency parsers from partially projected dependencies )
Ophélie Lacroix | Lauriane Aufrant | Guillaume Wisniewski | François Yvon

Cet article présente une méthode simple de transfert cross-lingue de dépendances. Nous montrons tout d’abord qu’il est possible d’apprendre un analyseur en dépendances par transition à partir de données partiellement annotées. Nous proposons ensuite de construire de grands ensembles de données partiellement annotés pour plusieurs langues cibles en projetant les dépendances via les liens d’alignement les plus sûrs. En apprenant des analyseurs pour les langues cibles à partir de ces données partielles, nous montrons que cette méthode simple obtient des performances qui rivalisent avec celles de méthodes état-de-l’art récentes, tout en ayant un coût algorithmique moindre.

Bleu, contusion, ecchymose : tri automatique de synonymes en fonction de leur difficulté de lecture et compréhension (Automatic ranking of synonyms according to their reading and comprehension difficulty)
Thomas Francois | Mokhtar B. Billami | Núria Gala | Delphine Bernhard

La lisibilité d’un texte dépend fortement de la difficulté des unités lexicales qui le composent. La simplification lexicale vise ainsi à remplacer les termes complexes par des équivalents sémantiques plus simples à comprendre : par exemple, BLEU (‘résultat d’un choc’) est plus simple que CONTUSION ou ECCHYMOSE. Il est pour cela nécessaire de disposer de ressources qui listent des synonymes pour des sens donnés et les trient par ordre de difficulté. Cet article décrit une méthode pour constituer une ressource de ce type pour le français. Les listes de synonymes sont extraites de BabelNet et de JeuxDeMots, puis triées grâce à un algorithme statistique d’ordonnancement. Les résultats du tri sont évalués par rapport à 36 listes de synonymes ordonnées manuellement par quarante annotateurs.

Comparaison d’approches de classification automatique des actes de dialogue dans un corpus de conversations écrites en ligne sur différentes modalités (A comparison of automatic dialog act recognition approaches in a multimodal corpus of online written conversations)
Soufian Salim | Nicolas Hernandez | Emmanuel Morin

L’analyse des conversations écrites porteuses de demandes d’assistance est un enjeu important pour le développement de nouvelles technologies liées au support client. Dans cet article, nous nous intéressons à l’analyse d’un même type d’échange sur un canal différent : les conversations se déroulant sur les plate-formes d’entraide entre utilisateurs. Nous comparons des approches de classification supervisées sur trois modalités des CMR 1 différentes à même thématique : des courriels, forums et chats issus de la communauté Ubuntu. Le système emploie une taxonomie fine basée sur le schéma DIT++. D’autres expériences sont détaillées, et nous rapportons les résultats obtenus avec différentes approches et différents traits sur les différentes parties de notre corpus multimodal.

Construire un lexique de sentiments par crowdsourcing et propagation (Building a sentiment lexicon through crowdsourcing and spreading)
Mathieu Lafourcade | Nathalie Le Brun | Alain Joubert

Cet article présente une méthode de construction d’une ressource lexicale de sentiments/émotions. Son originalité est d’associer le crowdsourcing via un GWAP (Game With A Purpose) à un algorithme de propagation, les deux ayant pour support et source de données le réseau lexical JeuxDeMots. Nous décrivons le jeu permettant de collecter des informations de sentiments, ainsi que les principes et hypothèses qui sous-tendent le fonctionnement de l’algorithme qui les propage au sein du réseau. Enfin, nous donnons les résultats quantitatifs et expliquons les méthodes d’évaluation qualitative des données obtenues, à la fois par le jeu et par la propagation par l’algorithme. Ces méthodes incluent une comparaison avec Emolex, une autre ressource de sentiments/émotions.

Détection de concepts pertinents pour le résumé automatique de conversations par recombinaison de patrons (Relevant concepts detection for the automatic summary of conversations using patterns recombination )
Jérémy Trione | Benoit Favre | Frederic Bechet

automatique de conversations par recombinaison de patrons Jérémy Trione Benoit Favre Frédéric Béchet Aix-Marseille Université, CNRS, LIF UMR 7279, 13000, Marseille, France prénom.nom@lif.univ-mrs.fr R ÉSUMÉ Ce papier décrit une approche pour créer des résumés de conversations parlées par remplissage de patrons. Les patrons sont générés automatiquement à partir de fragments généralisés depuis un corpus de résumés d’apprentissage. Les informations nécessaires pour remplir les patrons sont détectées dans les transcriptions des conversations et utilisées pour sélectionner les fragments candidats. L’approche obtient un score ROUGE-2 de 0.116 sur le corpus RATP-DECODA. Les résultats obtenus montrent que cette approche abstractive est plus performante que les approches extractives utilisées habituellement dans le domaine du résumé automatique.

Détection et classification non supervisées de relations sémantiques dans des articles scientifiques (Unsupervised Classification of Semantic Relations in Scientific Papers)
Kata Gábor | Isabelle Tellier | Thierry Charnois | Haïfa Zargayouna | Davide Buscaldi

Dans cet article, nous abordons une tâche encore peu explorée, consistant à extraire automatiquement l’état de l’art d’un domaine scientifique à partir de l’analyse d’articles de ce domaine. Nous la ramenons à deux sous-tâches élémentaires : l’identification de concepts et la reconnaissance de relations entre ces concepts. Une extraction terminologique permet d’identifier les concepts candidats, qui sont ensuite alignés à des ressources externes. Dans un deuxième temps, nous cherchons à reconnaître et classifier automatiquement les relations sémantiques entre concepts de manière nonsupervisée, en nous appuyant sur différentes techniques de clustering et de biclustering. Nous mettons en œuvre ces deux étapes dans un corpus extrait de l’archive de l’ACL Anthology. Une analyse manuelle nous a permis de proposer une typologie des relations sémantiques, et de classifier un échantillon d’instances de relations. Les premières évaluations suggèrent l’intérêt du biclustering pour détecter de nouveaux types de relations dans le corpus.

Etude de l’impact d’un lexique bilingue spécialisé sur la performance d’un moteur de traduction à base d’exemples (Studying the impact of a specialized bilingual lexicon on the performance of an example-based machine translation engine)
Nasredine Semmar | Othman Zennaki | Meriama Laib

La traduction automatique statistique bien que performante est aujourd’hui limitée parce qu’elle nécessite de gros volumes de corpus parallèles qui n’existent pas pour tous les couples de langues et toutes les spécialités et que leur production est lente et coûteuse. Nous présentons, dans cet article, un prototype d’un moteur de traduction à base d’exemples utilisant la recherche d’information interlingue et ne nécessitant qu’un corpus de textes en langue cible. Plus particulièrement, nous proposons d’étudier l’impact d’un lexique bilingue de spécialité sur la performance de ce prototype. Nous évaluons ce prototype de traduction et comparons ses résultats à ceux du système de traduction statistique Moses en utilisant les corpus parallèles anglais-français Europarl (European Parliament Proceedings) et Emea (European Medicines Agency Documents). Les résultats obtenus montrent que le score BLEU du prototype du moteur de traduction à base d’exemples est proche de celui du système Moses sur des documents issus du corpus Europarl et meilleur sur des documents extraits du corpus Emea.

Étude des réseaux de neurones récurrents pour étiquetage de séquences (A study of Recurrent Neural Networks for Sequence Labelling)
Marco Dinarelli | Isabelle Tellier

Dans cet article nous étudions plusieurs types de réseaux neuronaux récurrents (RNN) pour l’étiquetage de séquences. Nous proposons deux nouvelles variantes de RNN et nous les comparons aux variantes plus classiques de type Jordan et Elman. Nous expliquons en détails quels sont les avantages de nos nouvelles variantes par rapport aux autres RNN. Nous évaluons tous les modèles, les nouvelles variantes ainsi que les RNN existants, sur deux tâches de compréhension de la parole : ATIS et MEDIA. Les résultats montrent que nos nouvelles variantes de RNN sont plus efficaces que les autres.

Évaluation de l’apprentissage incrémental par analogie (Incremental Learning From Scratch Using Analogical Reasoning )
Vincent Letard | Gabriel Illouz | Sophie Rosset

Cet article examine l’utilisation du raisonnement analogique dans le contexte de l’apprentissage incrémental. Le problème d’apprentissage sous-jacent développé est le transfert de requêtes formulées en langue naturelle vers des commandes dans un langage de programmation. Nous y explorons deux questions principales : Comment se comporte le raisonnement par analogie dans le contexte de l’apprentissage incrémental ? De quelle manière la séquence d’apprentissage influence-t-elle la performance globale ? Pour y répondre, nous proposons un protocole expérimental simulant deux utilisateurs et différentes séquences d’apprentissage. Nous montrons que l’ordre dans la séquence d’apprentissage incrémental n’a d’influence notable que sous des conditions spécifiques. Nous constatons également la complémentarité de l’apprentissage incrémental avec l’analogie pour un nombre d’exemples d’apprentissage minimal.

Évaluation des modèles sémantiques distributionnels : le cas de la dérivation syntaxique (Evaluation of distributional semantic models : The case of syntactic derivation )
Gabriel Bernier-Colborne | Patrick Drouin

Nous évaluons deux modèles sémantiques distributionnels au moyen d’un jeu de données représentant quatre types de relations lexicales et analysons l’influence des paramètres des deux modèles. Les résultats indiquent que le modèle qui offre les meilleurs résultats dépend des relations ciblées, et que l’influence des paramètres des deux modèles varie considérablement en fonction de ce facteur. Ils montrent également que ces modèles captent aussi bien la dérivation syntaxique que la synonymie, mais que les configurations qui captent le mieux ces deux types de relations sont très différentes.

Évaluation dune nouvelle structuration thématique hiérarchique des textes dans un cadre de résumé automatique et de détection d’ancres au sein de vidéos (Evaluation of a novel hierarchical thematic structuring of texts in the framework of text summarization and anchor detection for video hyperlinking )
Anca Simon | Guillaume Gravier | Pascale Sébillot

automatique et de détection d’ancres au sein de vidéos Anca Simon1 Guillaume Gravier2 Pascale Sébillot3 (1) Université de Rennes 1, IRISA & INRIA Rennes, Campus de Beaulieu, 35042 Rennes, France (2) CNRS, IRISA & INRIA Rennes, Campus de Beaulieu, 35042 Rennes, France (3) INSA, IRISA & INRIA Rennes, Campus de Beaulieu, 35042 Rennes, France anca.simon@irisa.fr, guillaume.gravier@irisa.fr, pascale.sebillot@irisa.fr R ÉSUMÉ Dans cet article, nous évaluons, à travers son intérêt pour le résumé automatique et la détection d’ancres dans des vidéos, le potentiel d’une nouvelle structure thématique extraite de données textuelles, composée d’une hiérarchie de fragments thématiquement focalisés. Cette structure est produite par un algorithme exploitant les distributions temporelles d’apparition des mots dans les textes en se fondant sur une analyse de salves lexicales. La hiérarchie obtenue a pour objet de filtrer le contenu non crucial et de ne conserver que l’information saillante des textes, à différents niveaux de détail. Nous montrons qu’elle permet d’améliorer la production de résumés ou au moins de maintenir les résultats de l’état de l’art, tandis que pour la détection d’ancres, elle nous conduit à la meilleure précision dans le contexte de la tâche Search and Anchoring in Video Archives à MediaEval. Les expériences sont réalisées sur du texte écrit et sur un corpus de transcriptions automatiques d’émissions de télévision.

Exploitation de reformulations pour l’acquisition d’un vocabulaire expert/non expert (Exploitation of reformulations for the acquisition of expert/non-expert vocabulary)
Edwige Antoine | Natalia Grabar

Les notions de domaines techniques, comme les notions médicales, présentent souvent des difficultés de compréhension par les non experts. Un vocabulaire qui associe les termes techniques aux expressions grand public peut aider à rendre les textes techniques mieux compréhensibles. L’objectif de notre travail est de construire un tel vocabulaire. Nous proposons d’exploiter la notion de reformulation grâce à trois méthodes : extraction d’abréviations, exploitation de marqueurs de reformulation et de parenthèses. Les segments associés grâce à ces méthodes sont alignés avec les terminologies médicales. Nos résultats permettent de couvrir un grand nombre de termes médicaux et montrent une précision d’extraction entre 0,68 et 0,98. Au total, plusieurs dizaines de milliers de paires sont proposés. Ces résultats sont analysés et comparés avec les travaux existants.

Extension lexicale de définitions grâce à des corpus annotés en sens (Lexical Expansion of definitions based on sense-annotated corpus )
Loïc Vial | Andon Tchechmedjiev | Didier Schwab

Pour un certain nombre de tâches ou d’applications du TALN, il est nécessaire de déterminer la proximité sémantique entre des sens, des mots ou des segments textuels. Dans cet article, nous nous intéressons à une mesure basée sur des savoirs, la mesure de Lesk. La proximité sémantique de deux définitions est évaluée en comptant le nombre de mots communs dans les définitions correspondantes dans un dictionnaire. Dans cet article, nous étudions plus particulièrement l’extension de définitions grâce à des corpus annotés en sens. Il s’agit de prendre en compte les mots qui sont utilisés dans le voisinage d’un certain sens et d’étendre lexicalement la définition correspondante. Nous montrons une amélioration certaine des performances obtenues en désambiguïsation lexicale qui dépassent l’état de l’art.

Extraction de lexiques bilingues à partir de corpus comparables spécialisés à travers une langue pivot (Bilingual lexicon extraction from specialized comparable corpora using a pivot language)
Alexis Linard | Emmanuel Morin | Béatrice Daille

L’extraction de lexiques bilingues à partir de corpus comparables se réalise traditionnellement en s’appuyant sur deux langues. Des travaux précédents en extraction de lexiques bilingues à partir de corpus parallèles ont démontré que l’utilisation de plus de deux langues peut être utile pour améliorer la qualité des alignements extraits. Nos travaux montrent qu’il est possible d’utiliser la même stratégie pour des corpus comparables. Nous avons défini deux méthodes originales impliquant des langues pivots et nous les avons évaluées sur quatre langues et deux langues pivots en particulier. Nos expérimentations ont montré que lorsque l’alignement entre la langue source et la langue pivot est de bonne qualité, l’extraction du lexique en langue cible s’en trouve améliorée.

Fouille de motifs et CRF pour la reconnaissance de symptômes dans les textes biomédicaux (Pattern mining and CRF for symptoms recognition in biomedical texts)
Pierre Holat | Nadi Tomeh | Thierry Charnois | Delphine Battistelli | Marie-Christine Jaulent | Jean-Philippe Métivier

Dans cet article, nous nous intéressons à l’extraction d’entités médicales de type symptôme dans les textes biomédicaux. Cette tâche est peu explorée dans la littérature et il n’existe pas à notre connaissance de corpus annoté pour entraîner un modèle d’apprentissage. Nous proposons deux approches faiblement supervisées pour extraire ces entités. Une première est fondée sur la fouille de motifs et introduit une nouvelle contrainte de similarité sémantique. La seconde formule la tache comme une tache d’étiquetage de séquences en utilisant les CRF (champs conditionnels aléatoires). Nous décrivons les expérimentations menées qui montrent que les deux approches sont complémentaires en termes d’évaluation quantitative (rappel et précision). Nous montrons en outre que leur combinaison améliore sensiblement les résultats.

Une méthode non-supervisée pour la segmentation morphologique et l’apprentissage de morphotactique à l’aide de processus de Pitman-Yor (An unsupervised method for joint morphological segmentation and morphotactics learning using Pitman-Yor processes)
Kevin Löser | Alexandre Allauzen

Cet article présente un modèle bayésien non-paramétrique pour la segmentation morphologique non supervisée. Ce modèle semi-markovien s’appuie sur des classes latentes de morphèmes afin de modéliser les caractéristiques morphotactiques du lexique, et son caractère non-paramétrique lui permet de s’adapter aux données sans avoir à spécifier à l’avance l’inventaire des morphèmes ainsi que leurs classes. Un processus de Pitman-Yor est utilisé comme a priori sur les paramètres afin d’éviter une convergence vers des solutions dégénérées et inadaptées au traitemement automatique des langues. Les résultats expérimentaux montrent la pertinence des segmentations obtenues pour le turc et l’anglais. Une étude qualitative montre également que le modèle infère une morphotactique linguistiquement pertinente, sans le recours à des connaissances expertes quant à la structure morphologique des formes de mots.

Modèles adaptatifs pour prédire automatiquement la compétence lexicale d’un apprenant de français langue étrangère (Adaptive models for automatically predicting the lexical competence of French as a foreign language learners)
Anaïs Tack | Thomas François | Anne-Laure Ligozat | Cédrick Fairon

Cette étude examine l’utilisation de méthodes d’apprentissage incrémental supervisé afin de prédire la compétence lexicale d’apprenants de français langue étrangère (FLE). Les apprenants ciblés sont des néerlandophones ayant un niveau A2/B1 selon le Cadre européen commun de référence pour les langues (CECR). À l’instar des travaux récents portant sur la prédiction de la maîtrise lexicale à l’aide d’indices de complexité, nous élaborons deux types de modèles qui s’adaptent en fonction d’un retour d’expérience, révélant les connaissances de l’apprenant. En particulier, nous définissons (i) un modèle qui prédit la compétence lexicale de tous les apprenants du même niveau de maîtrise et (ii) un modèle qui prédit la compétence lexicale d’un apprenant individuel. Les modèles obtenus sont ensuite évalués par rapport à un modèle de référence déterminant la compétence lexicale à partir d’un lexique spécialisé pour le FLE et s’avèrent gagner significativement en exactitude (9%-17%).

Modélisation unifiée du document et de son domaine pour une indexation par termes-clés libre et contrôlée (Unified document and domain-specific model for keyphrase extraction and assignment )
Adrien Bougouin | Florian Boudin | Beatrice Daille

Dans cet article, nous nous intéressons à l’indexation de documents de domaines de spécialité par l’intermédiaire de leurs termes-clés. Plus particulièrement, nous nous intéressons à l’indexation telle qu’elle est réalisée par les documentalistes de bibliothèques numériques. Après analyse de la méthodologie de ces indexeurs professionnels, nous proposons une méthode à base de graphe combinant les informations présentes dans le document et la connaissance du domaine pour réaliser une indexation (hybride) libre et contrôlée. Notre méthode permet de proposer des termes-clés ne se trouvant pas nécessairement dans le document. Nos expériences montrent aussi que notre méthode surpasse significativement l’approche à base de graphe état de l’art.

Ne nous arrêtons pas en si bon chemin : améliorations de l’apprentissage global d’analyseurs en dépendances par transition (Don’t Stop Me Now ! Improved Update Strategies for Global Training of Transition-Based)
Lauriane Aufrant | Guillaume Wisniewski | François Yvon

Dans cet article, nous proposons trois améliorations simples pour l’apprentissage global d’analyseurs en dépendances par transition de type A RC E AGER : un oracle non déterministe, la reprise sur le même exemple après une mise à jour et l’entraînement en configurations sous-optimales. Leur combinaison apporte un gain moyen de 0,2 UAS sur le corpus SPMRL. Nous introduisons également un cadre général permettant la comparaison systématique de ces stratégies et de la plupart des variantes connues. Nous montrons que la littérature n’a étudié que quelques stratégies parmi les nombreuses variations possibles, négligeant ainsi plusieurs pistes d’améliorations potentielles.

Prédiction automatique de fonctions pragmatiques dans les reformulations (Automatic prediction of pragmatic functions in reformulations)
Natalia Grabar | Iris Eshkol-Taravella

La reformulation participe à la structuration du discours, notamment dans le cas des dialogues, et contribue également à la dynamique du discours. Reformuler est un acte significatif qui poursuit des objectifs précis. L’objectif de notre travail est de prédire automatiquement la raison pour laquelle un locuteur effectue une reformulation. Nous utilisons une classification de onze fonctions pragmatiques inspirées des travaux existants et des données analysées. Les données de référence sont issues d’annotations manuelles et consensuelles des reformulations spontanées formées autour de trois marqueurs (c’est-à-dire, je veux dire, disons). Les données proviennent d’un corpus oral et d’un corpus de discussions sur les forums de santé. Nous exploitons des algorithmes de catégorisation supervisée et un ensemble de plusieurs descripteurs (syntaxiques, formels, sémantiques et discursifs) pour prédire les catégories de reformulation. La distribution des énoncés et phrases selon les catégories n’est pas homogène. Les expériences sont positionnées à deux niveaux : générique et spécifique. Nos résultats indiquent qu’il est plus facile de prédire les types de fonctions au niveau générique (la moyenne des F-mesures est autour de 0,80), qu’au niveau des catégories individuelles (la moyenne des F-mesures est autour de 0,40). L’influence de différents paramètres est étudiée.

Projection Interlingue d’Étiquettes pour l’Annotation Sémantique Non Supervisée (Cross-lingual Annotation Projection for Unsupervised Semantic Tagging)
Othman Zennaki | Nasredine Semmar | Laurent Besacier

Nos travaux portent sur la construction rapide d’outils d’analyse linguistique pour des langues peu dotées en ressources. Dans une précédente contribution, nous avons proposé une méthode pour la construction automatique d’un analyseur morpho-syntaxique via une projection interlingue d’annotations linguistiques à partir de corpus parallèles (méthode fondée sur les réseaux de neurones récurrents). Nous présentons, dans cet article, une amélioration de notre modèle neuronal, avec la prise en compte d’informations linguistiques externes pour un annotateur plus complexe. En particulier, nous proposons d’intégrer des annotations morpho-syntaxiques dans notre architecture neuronale pour l’apprentissage non supervisé d’annotateurs sémantiques multilingues à gros grain (annotation en SuperSenses). Nous montrons la validité de notre méthode et sa généricité sur l’italien et le français et étudions aussi l’impact de la qualité du corpus parallèle sur notre approche (généré par traduction manuelle ou automatique). Nos expériences portent sur la projection d’annotations de l’anglais vers le français et l’italien.

Utilisation des relations d’une base de connaissances pour la désambiguïsation d’entités nommées (Using the Relations of a Knowledge Base to Improve Entity Linking )
Romaric Besançon | Hani Daher | Olivier Ferret | Hervé Le Borgne

L’identification des entités nommées dans un texte est une tâche essentielle des outils d’extraction d’information dans de nombreuses applications. Cette identification passe par la reconnaissance d’une mention d’entité dans le texte, ce qui a été très largement étudié, et par l’association des entités reconnues à des entités connues, présentes dans une base de connaissances. Cette association repose souvent sur une mesure de similarité entre le contexte textuel de la mention de l’entité et un contexte textuel de description des entités de la base de connaissances. Or, ce contexte de description n’est en général pas présent pour toutes les entités. Nous proposons d’exploiter les relations de la base de connaissances pour ajouter un indice de désambiguïsation pour ces entités. Nous évaluons notre travail sur des corpus d’évaluation standards en anglais issus de la tâche de désambiguïsation d’entités de la campagne TAC-KBP.

Word2Vec vs DBnary ou comment (ré)concilier représentations distribuées et réseaux lexico-sémantiques ? Le cas de l’évaluation en traduction automatique (Word2Vec vs DBnary or how to bring back together vector representations and lexical resources ? A case study for machine translation evaluation)
Christophe Servan | Zied Elloumi | Hervé Blanchon | Laurent Besacier

Cet article présente une approche associant réseaux lexico-sémantiques et représentations distribuées de mots appliquée à l’évaluation de la traduction automatique. Cette étude est faite à travers l’enrichissement d’une métrique bien connue pour évaluer la traduction automatique (TA) : METEOR. METEOR permet un appariement approché (similarité morphologique ou synonymie) entre une sortie de système automatique et une traduction de référence. Nos expérimentations s’appuient sur la tâche Metrics de la campagne d’évaluation WMT 2014 et montrent que les représentations distribuées restent moins performantes que les ressources lexico-sémantiques pour l’évaluation en TA mais peuvent néammoins apporter un complément d’information intéressant à ces dernières.

bib (full) Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)
Laurence Danlos | Thierry Hamon

Amélioration de la traduction automatique d’un corpus annoté (Improvement of the automatic translation of an annotated corpus)
Marwa Hadj Salah | Hervé Blanchon | Mounir Zrigui | Didier Schwab

Dans cet article, nous présentons une méthode pour améliorer la traduction automatique d’un corpus annoté et porter ses annotations de l’anglais vers une langue cible. Il s’agit d’améliorer la méthode de (Nasiruddin et al., 2015) qui donnait de nombreux segments non traduits, des duplications et des désordres. Nous proposons un processus de pré-traitement du SemCor anglais, pour qu’il soit adapté au système de traduction automatique statistique utilisé, ainsi qu’un processus de post-traitement pour la sortie. Nous montrons une augmentation de 2,9 points en terme de score F1 sur une tâche de désambiguïsation lexicale ce qui prouve l’efficacité de notre méthode.

Analyse d’une tâche de substitution lexicale : quelles sont les sources de difficulté ? (Difficulty analysis for a lexical substitution task)
Ludovic Tanguy | Cécile Fabre | Camille Mercier

Nous proposons dans cet article une analyse des résultats de la campagne SemDis 2014 qui proposait une tâche de substitution lexicale en français. Pour les 300 phrases du jeu de test, des annotateurs ont proposé des substituts à un mot cible, permettant ainsi d’établir un gold standard sur lequel les systèmes participants ont été évalués. Nous cherchons à identifier les principales caractéristiques des items du jeu de test qui peuvent expliquer les variations de performance pour les humains comme pour les systèmes, en nous basant sur l’accord inter-annotateurs des premiers et les scores de rappel des seconds. Nous montrons que si plusieurs caractéristiques communes sont associées aux deux types de difficulté (rareté du sens dans lequel le mot-cible est employé, fréquence d’emploi du mot-cible), d’autres sont spécifiques aux systèmes (degré de polysémie du mot-cible, complexité syntaxique).

L’anti-correcteur : outil d’évaluation positive de l’orthographe et de la grammaire (The ”anticorrecteur”: a positive evaluation module for spell and grammar checking)
Lydia-Mai Ho-Dac | Sophie Muller | Valentine Delbar

L’objectif de cette étude est d’expérimenter l’intégration d’une nouvelle forme d’évaluation dans un correcteur orthographique et grammatical. L’« anticorrecteur » a pour objet de mesurer le taux de réussites orthographiques et grammaticales d’un texte sur certains points jugés difficiles selon la littérature et une observation d’erreurs en corpus. L’évaluation du niveau d’écriture ne se base plus uniquement sur les erreurs commises, mais également sur les réussites réalisées. Une version bêta de ce nouveau mode d’évaluation positive a été intégré dans le correcteur Cordial. Cet article a pour but de discuter de l’intérêt de ce nouveau rapport à l’orthographe et de présenter quelques premiers éléments d’analyse résultant de l’application de l’anticorrecteur sur un corpus de productions variées en matière de niveau d’écriture et genre discursif. Ici, un résumé en français (max. 150 mots). Times, 10pt.

Appariement d’articles en ligne et de vidéos : stratégies de sélection et méthodes d’évaluation (Pairing On-line News Articles to Videos : Selection Strategies and Evaluation Methods)
Adèle Désoyer | Delphine Battistelli | Jean-Luc Minel

Dans cet article, nous proposons une méthode d’appariement de contenus d’actualité multimédias, considérant les exigences à la fois sémantiques et temporelles du besoin d’information. La pertinence d’une vidéo pour un article de presse est mesurée par deux indices, l’un saisissant la similarité de leurs contenus, l’autre la cohérence de leurs dates d’édition. Nous présentons également une méthodologie d’évaluation s’affranchissant des standards comparant les résultats du système à des résultats de référence, en soumettant les paires de documents proposées automatiquement à un panel d’utilisateurs chargé de juger de leur pertinence.

Approximate unsupervised summary optimisation for selections of ROUGE
Natalie Schluter | Héctor Martínez Alonso

Approximate summary optimisation for selections of ROUGE It is standard to measure automatic summariser performance using the ROUGE metric. Unfortunately, ROUGE is not appropriate for unsupervised summarisation approaches. On the other hand, we show that it is possible to optimise approximately for ROUGE-n by using a document-weighted ROUGE objective. Doing so results in state-of-the-art summariser performance for single and multiple document summaries for both English and French. This is despite a non-correlation of the documentweighted ROUGE metric with human judgments, unlike the original ROUGE metric. These findings suggest a theoretical approximation link between the two metrics.

L’architecture d’un modèle hybride pour la normalisation de SMS (A hybrid model architecture for SMS normalization)
Eleni Kogkitsidou | Georges Antoniadis

La communication par SMS (Short Message Service), aussi bien que tout autre type de communication virtuelle sous forme de textes courts (mails, microblogs, tweets, etc.), présente certaines particularités spécifiques (syntaxe irrégulière, fusionnement et phonétisation de mots, formes abrégées, etc.). A cause de ces caractéristiques, l’application d’outils en Traitement Automatique du Langage (TAL) rend difficile l’exploitation d’informations utiles contenues dans des messages bruités. Nous proposons un modèle de normalisation en deux étapes fondé sur une approche symbolique et statistique. La première partie vise à produire une représentation intermédiaire du message SMS par l’application des grammaires locales, tandis que la deuxième utilise un système de traduction automatique à base de règles pour convertir la représentation intermédiaire vers une forme standard.

Une catégorisation de fins de lignes non-supervisée (End-of-line classification with no supervision)
Pierre Zweigenbaum | Cyril Grouin | Thomas Lavergne

Dans certains textes bruts, les marques de fin de ligne peuvent marquer ou pas la frontière d’une unité textuelle (typiquement un paragraphe). Ce problème risque d’influencer les traitements subséquents, mais est rarement traité dans la littérature. Nous proposons une méthode entièrement non-supervisée pour déterminer si une fin de ligne doit être vue comme un simple espace ou comme une véritable frontière d’unité textuelle, et la testons sur un corpus de comptes rendus médicaux. Cette méthode obtient une F-mesure de 0,926 sur un échantillon de 24 textes contenant des lignes repliées. Appliquée sur un échantillon plus grand de textes contenant ou pas des lignes repliées, notre méthode la plus prudente obtient une F-mesure de 0,898, valeur élevée pour une méthode entièrement non-supervisée.

Classification automatique de dictées selon leur niveau de difficulté de compréhension et orthographique (Automatic classification of dictations according to their complexity for comprehension and writing production)
Adeline Müller | Thomas Francois | Sophie Roekhaut | Cedrick Fairon

Cet article présente une approche visant à évaluer automatiquement la difficulté de dictées en vue de les intégrer dans une plateforme d’apprentissage de l’orthographe. La particularité de l’exercice de la dictée est de devoir percevoir du code oral et de le retranscrire via le code écrit. Nous envisageons ce double niveau de difficulté à l’aide de 375 variables mesurant la difficulté de compréhension d’un texte ainsi que les phénomènes orthographiques et grammaticaux complexes qu’il contient. Un sous-ensemble optimal de ces variables est combiné à l’aide d’un modèle par machines à vecteurs de support (SVM) qui classe correctement 56% des textes. Les variables lexicales basées sur la liste orthographique de Catach (1984) se révèlent les plus informatives pour le modèle.

Combiner des modèles sémantiques distributionnels pour mieux détecter les termes évoquant le même cadre sémantique (Combining distributional semantic models to improve the identification of terms that evoke the same semantic frame)
Gabriel Bernier-Colborne | Patrick Drouin

Nous utilisons des modèles sémantiques distributionnels pour détecter des termes qui évoquent le même cadre sémantique. Dans cet article, nous vérifions si une combinaison de différents modèles permet d’obtenir une précision plus élevée qu’un modèle unique. Nous mettons à l’épreuve plusieurs méthodes simples pour combiner les mesures de similarité calculées à partir de chaque modèle. Les résultats indiquent qu’on obtient systématiquement une augmentation de la précision par rapport au meilleur modèle unique en combinant des modèles différents.

Comparing Named-Entity Recognizers in a Targeted Domain: Handcrafted Rules vs Machine Learning
Ioannis Partalas | Cédric Lopez | Frédérique Segond

Comparing Named-Entity Recognizers in a Targeted Domain : Handcrafted Rules vs. Machine Learning Named-Entity Recognition concerns the classification of textual objects in a predefined set of categories such as persons, organizations, and localizations. While Named-Entity Recognition is well studied since 20 years, the application to specialized domains still poses challenges for current systems. We developed a rule-based system and two machine learning approaches to tackle the same task : recognition of product names, brand names, etc., in the domain of Cosmetics, for French. Our systems can thus be compared under ideal conditions. In this paper, we introduce both systems and we compare them.

Compilation de grammaire de propriétés pour l’analyse syntaxique par optimisation de contraintes (Compilation of a Property Grammar for Syntactic Parsing through Constraint Optimisation)
Jean-Philippe Prost | Rémi Coletta | Christophe Lecoutre

Cet article présente un processus de compilation d’une grammaire de propriétés en une contrainte en extension. Le processus s’insère dans le cadre d’un analyseur syntaxique robuste par résolution d’un problème d’optimisation de contraintes. La grammaire compilée est une énumération de tous les constituants immédiats uniques de l’espace de recherche. L’intérêt de ce travail encore préliminaire tient principalement dans l’exploration d’une modélisation computationnelle de la langue à base de Syntaxe par Modèles (MTS, Model-Theoretic Syntax), qui intègre la représentation indifférenciée des énoncés canoniques et non-canoniques. L’objectif plus particulier du travail présenté ici est d’explorer la possibilité de construire l’ensemble des structures candidat-modèles à partir de l’ensemble des structures syntagmatiques observées sur corpus. Cet article discute notamment le potentiel en matière d’intégration de prédictions probabilistes dans un raisonnement exact pour contribuer à la discrimination entre analyses grammaticales et agrammaticales.

Découverte de nouvelles entités et relations spatiales à partir d’un corpus de SMS (Discovering of new Spatial Entities and Relations from SMS Within the context of the currently available data masses, many works related to the analysis of spatial information are based on the exploitation of textual data)
Sarah Zenasni | Maguelonne Teisseire | Mathieu Roche | Eric Kergosien

Dans le contexte des masses de données aujourd’hui disponibles, de nombreux travaux liés à l’analyse de l’information spatiale s’appuient sur l’exploitation des données textuelles. La communication médiée (SMS, tweets, etc.) véhiculant des informations spatiales prend une place prépondérante. L’objectif du travail présenté dans cet article consiste à extraire ces informations spatiales à partir d’un corpus authentique de SMS en français. Nous proposons un processus dans lequel, dans un premier temps, nous extrayons de nouvelles entités spatiales (par exemple, motpellier, montpeul à associer au toponyme Montpellier). Dans un second temps, nous identifions de nouvelles relations spatiales qui précèdent les entités spatiales (par exemple, sur, par, pres, etc.). La tâche est difficile et complexe en raison de la spécificité du langage SMS qui repose sur une écriture peu standardisée (apparition de nombreux lexiques, utilisation massive d’abréviations, variation par rapport à l’écrit classique, etc.). Les expérimentations qui ont été réalisées à partir du corpus 88milSMS mettent en relief la robustesse de notre système pour identifier de nouvelles entités et relations spatiales.

Description de la juxtaposition en Langue des Signes Française à partir d’une grammaire récursive (The present communication tackles formal grammar developpement of French Sign Language (LSF))
Mohamed Nassime Hadjadj | Michael Filhol

La présente communication s’inscrit dans le cadre du développement d’une grammaire formelle pour la langue des signes française (LSF). Générer automatiquement des énoncés en LSF implique la définition de certaines règles de production pour synchroniser les différents articulateurs du corps, signes, mouvements, etc. Cet article présente dans sa première partie notre méthodologie pour définir des règles de production à partir d’une étude de corpus. Dans la deuxième partie nous présenterons notre étude qui portera sur deux règles de production pour juxtaposer quelques types de structures en LSF. Nous finissons par une discussion sur la nature et l’apport de notre démarche par rapport aux approches existantes.

Détecter le besoin d’information dans des requêtes d’usagers d’agents virtuels : sélection de données pertinentes (Selecting relevant data for information need detection in virtual agent user queries)
Octavia Efraim | Fabienne Moreau

Pour orienter efficacement les messages reçus par différents canaux de communication, dont l’agent virtuel (AV), un système de gestion de la relation client doit prendre en compte le besoin d’information de l’usager. En vue d’une tâche de classification par type de besoin d’information, il est utile de pouvoir en amont sélectionner dans les messages des utilisateurs, souvent de mauvaise qualité, les unités textuelles qui seront pertinentes pour représenter ce besoin d’information. Après avoir décrit les spécificités d’un corpus de requêtes d’AV nous expérimentons deux méthodes de sélection de segments informatifs : par extraction et par filtrage. Les résultats sont encourageants, mais des améliorations et une évaluation extrinsèque restent à faire.

Estimer la notoriété d’un nom propre via Wikipedia (Estimate the notoriety of a Proper name using Wikipedia)
Mouna Elashter | Denis Maurel

Cet article propose de calculer, via Wikipedia, un indice de notoriété pour les entrées du dictionnaire relationnel multilingue de noms propres Prolexbase. Cet indice de notoriété dépend de la langue et participera, d’une part, à la construction d’un module de Prolexbase pour la langue arabe et, d’autre part, à la révision de la notoriété actuellement présente pour les autres langues de la base. Pour calculer la notoriété, nous utilisons la méthode SAW (précédée du calcul de l’entropie de Shannon) à partir de cinq valeurs numériques déduites de Wikipedia.

Étiquetage multilingue en parties du discours avec MElt (Multilingual part-of-speech tagging with MElt)
Benoît Sagot

Nous présentons des travaux récents réalisés autour de MElt, système discriminant d’étiquetage en parties du discours. MElt met l’accent sur l’exploitation optimale d’informations lexicales externes pour améliorer les performances des étiqueteurs par rapport aux modèles entraînés seulement sur des corpus annotés. Nous avons entraîné MElt sur plus d’une quarantaine de jeux de données couvrant plus d’une trentaine de langues. Comparé au système état-de-l’art MarMoT, MElt obtient en moyenne des résultats légèrement moins bons en l’absence de lexique externe, mais meilleurs lorsque de telles ressources sont disponibles, produisant ainsi des étiqueteurs état-de-l’art pour plusieurs langues.

Extraction d’expressions-cibles de l’opinion : de l’anglais au français (Opinion Target Expression extraction : from English to French)
Grégoire Jadi | Laura Monceaux | Vincent Claveau | Béatrice Daille

Dans cet article, nous présentons le développement d’un système d’extraction d’expressions-cibles pour l’anglais et sa transposition au français. En complément, nous avons réalisé une étude de l’efficacité des traits en anglais et en français qui tend à montrer qu’il est possible de réaliser un système d’extraction d’expressions-cibles indépendant du domaine. Pour finir, nous proposons une analyse comparative des erreurs commises par nos systèmes en anglais et français et envisageons différentes solutions à ces problèmes.

Extraction d’opinions ambigües dans des corpus d’avis clients (Ambiguous opinion extraction in user feedbacks)
Joseph Lark | Emmanuel Morin | Sebastián Peña Saldarriaga

Nous détectons dans des corpus d’avis clients en français des expressions d’opinion ne contenant pas de marqueur d’opinion explicitement positif ou négatif. Nous procédons pour cela en deux étapes en nous appuyant sur des méthodes existantes : nous identifions ces expressions à l’aide de fenêtres de mots puis nous les classifions en polarité. Le processus global présente des résultats satisfaisants pour notre cadre applicatif demandant une haute précision.

Extraction de relations temporelles dans des dossiers électroniques patient (Extracting Temporal Relations from Electronic Health Records)
Julien Tourille | Olivier Ferret | Aurélie Névéol | Xavier Tannier

L’analyse temporelle des documents cliniques permet d’obtenir des représentations riches des informations contenues dans les dossiers électroniques patient. Cette analyse repose sur l’extraction d’événements, d’expressions temporelles et des relations entre eux. Dans ce travail, nous considérons que nous disposons des événements et des expressions temporelles pertinents et nous nous intéressons aux relations temporelles entre deux événements ou entre un événement et une expression temporelle. Nous présentons des modèles de classification supervisée pour l’extraction de des relations en français et en anglais. Les performances obtenues sont comparables dans les deux langues, suggérant ainsi que différents domaines cliniques et différentes langues pourraient être abordés de manière similaire.

Impact de l’agglutination dans l’extraction de termes en arabe standard moderne (Adaptation of a term extractor to the Modern Standard Arabic language)
Wafa Neifar | Thierry Hamon | Pierre Zweigenbaum | Mariem Ellouze | Lamia Hadrich Belguith

Nous présentons, dans cet article, une adaptation à l’arabe standard moderne d’un extracteur de termes pour le français et l’anglais. L’adaptation a d’abord consisté à décrire le processus d’extraction des termes de manière similaire à celui défini pour l’anglais et le français en prenant en compte certains particularités morpho-syntaxiques de la langue arabe. Puis, nous avons considéré le phénomène de l’agglutination de la langue arabe. L’évaluation a été réalisée sur un corpus de textes médicaux. Les résultats montrent que parmi 400 termes candidats maximaux analysés, 288 sont jugés corrects par rapport au domaine (72,1%). Les erreurs d’extraction sont dues à l’étiquetage morpho-syntaxique et à la non-voyellation des textes mais aussi à des phénomènes d’agglutination.

Inbenta Semantic Clustering : un outil de classification non-supervisée hybride (Inbenta Semantic Clustering : a hybrid unsupervised classification tool)
Manon Quintana | Laurie Planes

Inbenta développe un outil de classification non-supervisée hybride qui allie à la fois les statistiques et la puissance de notre lexique inspiré de la Théorie Sens-Texte. Nous présenterons ici le contexte qui a amené à la nécessité de développer un tel outil. Après un rapide état de l’art sur la classification non-supervisée en TAL, nous décrirons le fonctionnement de notre clustering sémantique.

Intégration de la similarité entre phrases comme critère pour le résumé multi-document (Integrating sentence similarity as a constraint for multi-document summarization)
Maâli Mnasri | Gaël de Chalendar | Olivier Ferret

multi-document Maâli Mnasri1, 2 Gaël de Chalendar1 Olivier Ferret1 (1) CEA, LIST, Laboratoire Vision et Ingénierie des Contenus, Gif-sur-Yvette, F-91191, France. (2) Université Paris-Sud, Université Paris-Saclay, F-91405 Orsay, France. maali.mnasri@cea.fr, gael.de-chalendar@cea.fr, olivier.ferret@cea.fr R ÉSUMÉ À la suite des travaux de Gillick & Favre (2009), beaucoup de travaux portant sur le résumé par extraction se sont appuyés sur une modélisation de cette tâche sous la forme de deux contraintes antagonistes : l’une vise à maximiser la couverture du résumé produit par rapport au contenu des textes d’origine tandis que l’autre représente la limite du résumé en termes de taille. Dans cette approche, la notion de redondance n’est prise en compte que de façon implicite. Dans cet article, nous reprenons le cadre défini par Gillick & Favre (2009) mais nous examinons comment et dans quelle mesure la prise en compte explicite de la similarité sémantique des phrases peut améliorer les performances d’un système de résumé multi-document. Nous vérifions cet impact par des évaluations menées sur les corpus DUC 2003 et 2004.

Investigating gender adaptation for speech translation
Rachel Bawden | Guillaume Wisniewski | Hélène Maynard

In this paper we investigate the impact of the integration of context into dialogue translation. We present a new contextual parallel corpus of television subtitles and show how taking into account speaker gender can significantly improve machine translation quality in terms of B LEU and M ETEOR scores. We perform a manual analysis, which suggests that these improvements are not necessary related to the morphological consequences of speaker gender, but to more general linguistic divergences.

Médias traditionnels, médias sociaux : caractériser la réinformation (Traditional medias, social medias : characterizing reinformation)
Cédric Maigrot | Ewa Kijak | Vincent Claveau

Les médias traditionnels sont de plus en plus présents sur les réseaux sociaux, mais ces sources d’informations sont confrontées à d’autres sources dites de réinformation. Ces dernières ont parfois tendance à déformer les informations relayées pour correspondre aux idéologies qu’elles souhaitent défendre, les rendant partiellement ou totalement fausses. Le but de cet article est, d’une part, de présenter un corpus que nous avons constitué à partir de groupes Facebook de ces deux types de médias. Nous présentons d’autre part quelques expériences de détection automatique des messages issus des médias de réinformation, en étudiant notamment l’influence d’attributs de surface et d’attributs portant plus spécifiquement sur le contenu de ces messages.

Mise au point d’une méthode d’annotation morphosyntaxique fine du serbe (Developping a method for detailed morphosyntactic tagging of Serbian)
Aleksandra Miletic | Cécile Fabre | Dejan Stosic

Cet article présente une expérience d’annotation morphosyntaxique fine du volet serbe du corpus parallèle ParCoLab (corpus serbe-français-anglais). Elle a consisté à enrichir une annotation existante en parties du discours avec des traits morphosyntaxiques fins, afin de préparer une étape ultérieure de parsing. Nous avons comparé trois approches : 1) annotation manuelle ; 2) préannotation avec un étiqueteur entraîné sur le croate suivie d’une correction manuelle ; 3) réentraînement de l’outil sur un petit échantillon validé du corpus, suivi de l’annotation automatique et de la correction manuelle. Le modèle croate maintient une stabilité globale en passant au serbe, mais les différences entre les deux jeux d’étiquettes exigent des interventions manuelles importantes. Le modèle ré-entraîné sur un échantillon de taille limité (20K tokens) atteint la même exactitude que le modèle existant et le gain de temps observé montre que cette méthode optimise la phase de correction.

Patrons sémantiques pour l’extraction de relations entre termes - Application aux comptes rendus radiologiques (Here the title in English)
Lionel Ramadier | Mathieu Lafourcade

Dans cet article nous nous intéressons à la tâche d’extraction de relations sémantiques dans les textes médicaux et plus particulièrement dans les comptes rendus radiologiques. L’identification de relations sémantiques est une tâche importante pour plusieurs applications (recherche d’information, génération de résumé, etc). Nous proposons une approche fondée sur l’utilisation de patrons sémantiques vérifiant des contraintes dans une base de connaissances.

Recherche de « périsegments » dans un contexte d’analyse conceptuelle assistée par ordinateur : le concept d’« esprit » chez Peirce (Search of “perisegments” in computer-assisted conceptual analysis : the concept of “mind” in Peirce)
Davide Pulizzotto | José Alejandro Lopez Gonzalez | Jean-François Chartier | Jean-Guy Meunier | Louis Chartrand | Francis Lareau | Tan Le Ngoc

En sciences humaines et plus particulièrement en philosophie, l’analyse conceptuelle (AC) est une pratique fondamentale qui permet de décortiquer les propriétés d’un concept. Lors de l’analyse d’un un corpus textuel, le principal défi est l’identification des segments de texte qui expriment le concept. Parfois, ces segments sont facilement reconnaissables grâce à une unité lexicale attendue, appelée forme canonique. Toutefois, ce n’est pas toujours le cas. Cet article propose une chaîne de traitement pour la découverte d’un certain nombre de segments périphériques, dits périsegments. Pour illustrer le processus, nous réalisons des expérimentations sur le concept d’« esprit » dans les Collected Papers de Ch. S. Peirce, en obtenant une précision moyenne supérieure à 83%.

Segmentation automatique d’un texte en rhèses (Automatic segmentation of a text into rhesis)
Victor Pineau | Constance Nin | Solen Quiniou | Béatrice Daille

La segmentation d’un texte en rhèses, unités-membres signifiantes de la phrase, permet de fournir des adaptations de celui-ci pour faciliter la lecture aux personnes dyslexiques. Dans cet article, nous proposons une méthode d’identification automatique des rhèses basée sur un apprentissage supervisé à partir d’un corpus que nous avons annoté. Nous comparons celle-ci à l’identification manuelle ainsi qu’à l’utilisation d’outils et de concepts proches, tels que la segmentation d’un texte en chunks.

Système hybride pour la reconnaissance des entités nommées arabes à base des CRF (Hybrid Arabic NER system using CRF Model)
Emna Hkiri | Souheyl Mallat | Mounir Zrigui

La reconnaissance d’entités nommées (REN) pour les langues naturelles telles que l’arabe est une tâche essentielle et difficile. Dans cet article, nous décrivons notre système hybride afin d’améliorer la performance du système de REN et de combler le manque de ressources pour le TAL arabe. Notre système applique un modèle CRF, un lexique bilingue d’ENs et des règles linguistiques spécifiques à la tâche de reconnaissance d’entités nommées dans les textes arabes. Les résultats empiriques indiquent que notre système surpasse l’état-de l’art de la REN arabe lorsqu’il est appliqué au corpus d’évaluation standard ANERcorp.

Vers un lexique ouvert des formes fléchies de l’alsacien : génération de flexions pour les verbes (Towards an Open Lexicon of Inflected Word Forms for Alsatian: Generation of Verbal Inflection)
Lucie Steiblé | Delphine Bernhard

Cet article présente les méthodes mises en œuvre et les résultats obtenus pour la création d’un lexique de formes fléchies de l’alsacien. Les dialectes d’Alsace font partie des langues peu dotées : rares sont les outils et ressources informatisées les concernant. Plusieurs difficultés doivent être prises en compte afin de générer des ressources pour ces langues, généralement liées à la variabilité en l’absence de norme graphique, et au manque de formes fléchies dans les quelques ressources existantes. Nous avons pour ce faire utilisé plusieurs outils permettant la génération automatique de variantes graphiques et la création de formes fléchies (graphes morphologiques et de flexion d’Unitex). Les résultats en termes de couverture des formes rencontrées dans des textes ont permis l’évaluation de la méthode.

Vers une analyse des différences interlinguistiques entre les genres textuels : étude de cas basée sur les n-grammes et l’analyse factorielle des correspondances (Towards a cross-linguistic analysis of genres: A case study based on n-grams and Correspondence Analysis)
Marie-Aude Lefer | Yves Bestgen | Natalia Grabar

L’objectif de notre travail est d’évaluer l’intérêt d’employer les n-grammes et l’analyse factorielle des correspondances (AFC) pour comparer les genres textuels dans les études contrastives interlinguistiques. Nous exploitons un corpus bilingue anglais-français constitué de textes originaux comparables. Le corpus réunit trois genres : les débats parlementaires européens, les éditoriaux de presse et les articles scientifiques. Dans un premier temps, les n-grammes d’une longueur de 2 à 4 mots sont extraits dans chaque langue. Ensuite, pour chaque longueur, les 1 000 n-grammes les plus fréquents dans chaque langue sont traités par l’AFC pour déterminer quels n-grammes sont particulièrement saillants dans les genres étudiés. Enfin, les n-grammes sont catégorisés manuellement en distinguant les expressions d’opinion et de certitude, les marqueurs discursifs et les expressions référentielles. Les résultats montrent que les n-grammes permettent de mettre au jour des caractéristiques typiques des genres étudiés, de même que des contrastes interlangues intéressants.

bib (full) Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 3 : RECITAL

Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 3 : RECITAL
Laurence Danlos | Thierry Hamon

Acquisition terminologique en arabe: État de l’art (Terminological acquisition on MSA : State of the art)
Wafa Neifar | Ahmed Ben Ltaief

L’acquisition terminologique est une tâche indispensable pour l’accès aux informations présentes dans les corpus de spécialité. Il s’agit d’une part, d’identifier et d’extraire des termes, et d’autre part, de structurer ces termes à l’aide de méthodes d’acquisition de relations sémantiques. Dans cet article, nous nous intéressons l’acquisition terminologique sur des textes arabe standard moderne (MSA). Nous réalisons tout d’abord, un état de l’art décrivant les méthodes d’extraction de termes sur cette langue ainsi que les approches proposées pour la reconnaissance de relations sémantiques entre termes issus. Après avoir présenter quelques corpus de spécialité et ressources terminologiques disponibles en MSA que nous avons identifiés, nous décrivons nos premières pistes de travail.

Apprentissage bayésien incrémental pour la détermination de l’âge et du genre d’utilisateurs de plateformes du web social (UGC text-based age & gender author profiling through incrementally semi-supervised bayesian learning)
Jugurtha Aït Hamlat

Les méthodes de classification textuelles basées sur l’apprentissage automatique ont l’avantage, en plus d’être robustes, de fournir des résultats satisfaisants, sous réserve de disposer d’une base d’entraînement de qualité et en quantité suffisante. Les corpus d’apprentissage étant coûteux à construire, leur carence à grande échelle se révèle être l’une des principales causes d’erreurs. Dans un contexte industriel à forte volumétrie de données, nous présentons une approche de prédiction des deux plus importants indicateurs socio-démographiques « âge » et « genre » appliquée à des utilisateurs de forums, blogs et réseaux sociaux et ce, à partir de leurs seules productions textuelles. Le modèle bayésien multinomial est construit à partir d’un processus d’apprentissage incrémental et itératif sur une vaste base d’entraînement semi-supervisée. Le caractère incrémental permet de s’affranchir des contraintes de volumétrie. L’aspect itératif a pour objectif d’affiner le modèle et d’augmenter ainsi les niveaux de rappel & précision.

Conjonctions de subordination, verbes de dire et d’attitude propositionnelle : une modélisation STAG pour le discours (Modelling Subordinate Conjunctions, Attitude Verbs and Reporting Verbs in STAG: a Discourse Perspective)
Timothée Bernard

Nous proposons une nouvelle modélisation en grammaire d’arbres adjoints synchrone (STAG) syntaxe/sémantique pour les conjonctions de subordination (ConjSub) et les verbes de dire et d’attitude propositionnelle (VAP ; dire, penser, croire, etc.). Cette modélisation, plus riche que les modélisations traditionnelles, est conçue pour l’analyse du discours et fondée sur l’observation que ces deux catégories sont loin d’être homogènes. En effet, des travaux antérieurs ont montré d’une part que les occurrences de ConjSub pouvaient être divisées en deux classes aux propriétés syntaxiques et sémantiques différentes, d’autre part que les VAP présentaient en discours deux usages distincts : évidentiel et intentionnel. Notre proposition vise donc à rendre compte précisément de ces différences tout en modélisant les interactions entre VAP et ConjSub.

Hypernym extraction from Wikipedia
Adel Ghamnia

Hypernym extraction from Wikipédia The volume of available documents on the Web continues to increase, the texts contained in these documents are rich information describing concepts and relationships between concepts specific to a particular field. In this paper, we propose and exploit an hypernymy extractor based on lexico-syntactic patterns designed for Wikipedia semi-structured pages, especially the disambiguation pages, to enrich a knowledge base as BabelNet and DBPedia. The results show a precision of 0.68 and a recall of 0.75 for the patterns that we have defined, and an enrichment rate up to 33% for both BabelNet and DBPédia semantic resources.

Identifier et catégoriser l’ambiguïté dans les spécifications techniques de conceptions de systèmes (Identifying and classifying ambiguity in requirements)
Émilie Merdy

Cette étude s’inscrit dans le cadre d’une thèse Cifre avec Prometil 1 , une société qui commercialise un outil de détection automatique des erreurs dans les exigences, i.e. le contenu textuel des spécifications techniques. Il s’agit d’un travail de recherche dans la lignée des travaux en analyse de corpus menés par le laboratoire CLLE-ERSS qui s’intéresse aux corpus spécialisés. Dans le cadre de l’adaptation automatique des analyses sémantiques à de nouveaux domaines, nous étudions la détection automatique de l’ambiguïté - qu’elle soit syntaxique, sémantique ou lexicale - dans les exigences à partir de ressources lexicales spécifiques mais incomplètes. En parallèle, l’exploration des exigences, qui sont des données non-massives et porteuses de peu de variétés lexicale et syntaxique, doit permettre de mieux appréhender la spécificité linguistique de corpus techniques spécialisés pour enrichir semi-automatiquement des ressources lexicales adaptées.

Un modèle simple de coût cognitif de la résolution d’anaphores (A Simple Model of Cognitive Cost of Anaphora Resolution)
Olga Seminck

Nous présentons un travail en cours sur un projet de recherche en TAL et en psycholinguistique. Le but de notre projet est de modéliser le coût cognitif que représente la résolution d’anaphores. Nous voulons obtenir une mesure du coût cognitif continue et incrémentale qui peut, à un stade de recherche plus avancé, être corrélée avec des mesures d’occulométrie sur corpus. Pour cela, nous proposons une modélisation inspirée par des techniques venues du TAL. Nous utilisons un solveur d’anaphores probabiliste basé sur l’algorithme couples de mentions et la notion d’entropie pour établir une mesure du coût cognitif des anaphores. Ensuite, nous montrons par des visualisations quelles sont les prédictions de cette première modélisation pour les pronoms personnels de troisième personne dans le corpus ANCOR Centre.

La polysémie lexicale et syntaxique de l’alternance modale indicatif/subjonctif – perspectives TAL (Lexical and syntactic polysemy of the modal alternation indicative/subjunctive – NLP perspectives)
Divna Petkovic | Victor Rabiet

Certains verbes ont une double commande modale : ils admettent une construction permettant l’usage du subjonctif et de l’indicatif dans la complétive qui leur est adjointe. Ainsi, ces verbes se trouvent dans des contextes polysémiques à tous les niveaux d’analyse (lexicale, syntaxique, grammaticale et pragmatique). Dans un tel cas, le mode peut représenter une marque formelle désambiguïsante. Plus précisément, parfois le verbe régissant (dans la principale) est polysémique en lui-même, et selon son sens il commande soit l’indicatif, soit le subjonctif dans la subordonnée complétive : il s’agit de la polysémie lexicale, qui peut être forte ou faible. D’un autre point de vue, certains verbes à l’indicatif/subjonctif dans la subordonnée modifient plus ou moins légèrement le sens de la phrase entière : on considère ici cela comme un cas de polysémie syntaxique, étant donné que ces verbes apparaissent dans diverses structures et modalités.

Quelles sont les caractéristiques des interactions problématiques entre des utilisateurs et un conseiller virtuel ? (How to characterize problematic interactions between users and a web virtual advisor?)
Irina Maslowski

L’utilisation d’un conseiller virtuel pour la gestion de la relation client sur les sites des entreprises est une solution numérique de plus en plus adoptée. Le défi pour les entreprises est de mieux répondre aux attentes des clients en leur fournissant des interactions fluides entre le client et l’agent. Pour faire face à ce problème, cet article met l’accent sur la détection des problèmes d’interactions dans un corpus de tchat écrit entre un conseiller virtuel et ses utilisateurs. Il fournit une analyse de corpus en décrivant non seulement les spécificités linguistiques et les marqueurs d’opinion contenus dans le corpus du tchat humain-agent, mais aussi les indices linguistiques et dialogiques qui peuvent être pertinents pour caractériser une interaction problématique. Le modèle de règles proposé, utilisant les indices trouvés, est appliqué à un corpus avec des retours client négatifs et positifs pour révéler les tendances.

bib (full) Actes de la conférence conjointe JEP-TALN-RECITAL 2016. Volume 4 : Conférences invitées

Actes de la conférence conjointe JEP-TALN-RECITAL 2016. Volume 4 : Conférences invitées
Laurence Danlos | Thierry Hamon

Corpora and Linguistic Linked Open Data: Motivations, Applications, Limitations
Christian Chiarcos

Linguistic Linked Open Data (LLOD) is a technology and a movement in several disciplines working with language resources, including Natural Language Processing, general linguistics, computational lexicography and the localization industry. This talk describes basic principles of Linguistic Linked Open Data and their application to linguistically annotated corpora, it summarizes the current status of the Linguistic Linked Open Data cloud and gives an overview over selected LLOD vocabularies and their uses.

From Human Language Technology to Human Language Science
Mark Liberman

Thirty years ago, in order to get past roadblocks in Machine Translation and Automatic Speech Recognition, DARPA invented a new way to organize and manage technological R&D : a “common task” is defined by a formal quantitative evaluation metric and a body of shared training data, and researchers join an open competition to compare approaches. Over the past three decades, this method has produced steadily improving technologies, with many practical applications now possible. And Moore’s law has created a sort of digital shadow universe, which increasingly mirrors the real world in flows and stores of bits, while the same improvements in digital hardware and software make it increasingly easy to pull content out of the these rivers and oceans of information. It’s natural to be excited about these technologies, where we can see an open road to rapid improvements beyond the current state of the art, and an explosion of near-term commercial applications. But there are some important opportunities in a less obvious direction. Several areas of scientific and humanistic research are being revolutionized by the application of Human Language Technology. At a minimum, orders of magnitude more data can be addressed with orders of magnitude less effort - but this change also transforms old theoretical questions, and poses new ones. And eventually, new modes of research organization and funding are likely to emerge..

bib (full) Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 5 : Démonstrations

Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 5 : Démonstrations
Laurence Danlos | Thierry Hamon

ACGtk : un outil de développement et de test pour les grammaires catégorielles abstraites (ACG TK : a Toolkit to Develop and Test Abstract Categorial Grammars )
Sylvain Pogodalla

Nous présentons un outil, ACG TK, offrant un environnement de développement et d’utilisation des grammaires catégorielles abstraites pour l’analyse et la génération.

Un analyseur de conversations pour la relation client (Parsing email and chat conversations for customer support softwares)
Hugues de Mazancourt | Gaëlle Recourcé | Soufian Salim

Cette démonstration a pour objet de présenter l’utilisation d’un analyseur de conversations par email ou chat dans le cadre d’une application de support client : mise en valeur des demandes d’action, repérage des thèmes dangereux, tableau de bord pour le superviseur, alertes pour l’agent ...

AppFM, une plate-forme de gestion de modules de TAL (AppFM, a tool for managing NLP modules)
Paul Bui-Quang | Brigitte Grau | Patrick Paroubek

AppFM 1 est un outil à mi-chemin entre un environnement de création de chaînes modulaires de TAL et un gestionnaire de services systèmes. Il permet l’intégration d’applications ayant des dépendances complexes en des chaînes de traitements réutilisables facilement par le biais de multiples interfaces.

CommunicoTool Advance, un prototype d’application d’aide à la communication (CommunicoTool Advance: an assistive communication app prototype)
Charlotte Roze

CommunicoTool Advance est un prototype d’application mobile d’aide à la communication destinée à des personnes qui présentent des troubles moteurs et des troubles de la parole.

Construction automatisée d’une base de connaissances (Automated Building a Knowledge Base)
Olivier Mesnard | Yoann Dupont | Jérémy Guillemot | Rashedur Rahman

Le système présenté permet la construction automatisée d’une base de connaissances sur des personnes et des organisations à partir d’une collection de documents. Il s’appuie sur de l’apprentissage distant pour l’extraction d’hypothèses de relations entre mentions d’entités qu’il consolide avec des informations orientées graphe.

E-Quotes : un outil de navigation textuelle guidée par les annotations sémantiques (E-Quotes : A semantic annotations-driven tool for textual navigation)
Motasem Alrahabi

Nous présentons E-Quotes, un outil de navigation textuelle guidée par les annotations sémantiques. Le système permet de localiser les mots clés et leurs variantes dans les citations sémantiquement catégorisés dans corpus annoté, et de naviguer entre ces citations. Nous avons expérimenté ce système sur un corpus de littérature française automatiquement annoté selon des catégories sémantiques présentes dans le contexte des citations, comme par exemple la définition, l’argumentation, l’opinion, l’ironie ou la rumeur rapportées.

Exploration de collections d’archives multimédia dans le contexte des Humanités Numériques : revisiter TALN’2015 ? (Exploring multimedia archives in the context of Digital Humanities: browsing TALN’2015?)
Géraldine Damnati | Marc Denjean | Delphine Charlet

Cette démonstration présente un prototype d’exploration de contenus multimédias développé dans le but de faciliter l’accès aux contenus de la Connaissance. Après une extraction automatique de métadonnées, les contenus sont indexés et accessibles via un moteur de recherche spécifique. Des fonctionnalités innovantes de navigation à l’intérieur des contenus sont également présentées. La collection des enregistrements vidéo de TALN’2015 sert de support privilégié à cette démonstration.

FlexiMac 1.1. – Conjugueur automatique des verbes macédoniens (FlexiMac 1)
Jovan Kostov

Cette démonstration présente la plateforme FlexiMac 1.1., générateur automatique des verbes macédoniens qui permet de conjuguer un verbe dans la plupart des modes et des temps, sans faire appel à une base de données. Après un bref exposé du fonctionnement de la plateforme, nous allons également évoquer les travaux actuels qui en ont découlé, et ceux qui sont en train d’émerger dans une perspective de traitement automatique du macédonien en tant que langue européenne peu-dotée.

Héloïse, une plate-forme pour développer des systèmes de TA compatibles Ariane en réseau (Heloise, a platform for collaborative development of Ariane-compatible MT systems)
Vincent Berment | Christian Boitet | Guillaume de Malézieux

Dans cette démo, nous montrons comment utiliser Héloïse pour développer des systèmes de TA.

Identification de lieux dans les messageries mobiles (Place extraction from smartphone messaging applications)
Clément Doumouro | Adrien Ball | Joseph Dureau | Sylvain Raybaud | Ramzi Ben Yahya

Nous présentons un système d’identification de lieux dans les messageries typiquement utilisées sur smartphone. L’implémentation sur mobile et son cortège de contraintes, ainsi que la faible quantité de ressources disponibles pour le type de langage utilisé rendent la tâche particulièrement délicate. Ce système, implémenté sur Android, atteint une précision de 30% et un rappel de 72%.

Interface Web pour l’annotation morpho-syntaxique de textes (Web interface for the morpho-syntactic annotation of texts)
Thierry Hamon

Nous présentons une interface Web pour la visualisation etl’annotation de textes avec des étiquettes morphosyntaxiques etdes lemmes. Celle-ci est actuellement utilisée pour annoter destextes ukrainiens avec le jeu d’étiquettes Multext-East. Les utilisateurs peuvent rapidement visualiser les annotationsassociées aux mots d’un texte, modifier les annotationsexistantes ou en ajouter de nouvelles. Les annotations peuvent chargéeset exportées en XML au format TEI, mais aussi sous forme tabulée.Des scripts de conversion de format et de chargement dans une basede données sont également mis à disposition.

Lecture bilingue augmentée par des alignements multi-niveaux (Augmenting bilingual reading with alignment information)
François Yvon | Yong Xu | Marianna Apidianaki | Clément Pillias | Cubaud Pierre

Le travail qui a conduit à cette démonstration combine des outils de traitement des langues multilingues, en particulier l’alignement automatique, avec des techniques de visualisation et d’interaction. Il vise à proposer des pistes pour le développement d’outils permettant de lire simultanément les différentes versions d’un texte disponible en plusieurs langues, avec des applications en lecture de loisir ou en lecture professionnelle.

LNE-Visu : a tool to explore and visualize multimedia data
Guillaume Bernard | Juliette Kahn | Olivier Galibert | Rémi Regnier | Séverine Demeyer

LNE-Visu : a tool to explore and visualize multimedia data LNE-Visu is a tool to explore and visualize multimedia data created for the LNE evaluation campaigns. 3 functionalities are available: explore and select data, visualize and listen data, apply significance tests

Un outil multilingue d’extraction de collocations en ligne (This demo shows the web version of a multilingual collocation extraction tool)
Luka Nerima | Violeta Seretan | Eric Wehrli

Cette démonstration présente la version web d’un outil multilingue d’extraction de collocations. Elle est destinée aux lexicographes, aux traducteurs, aux enseignants et apprenants L2 et, plus généralement, aux linguistes désireux d’analyser et d’exploiter leurs propres corpus.

Radarly : écouter et analyser le web conversationnel en temps réel (Real time listening and analysis of the social web using Radarly)
Jade Copet | Christine de Carvalho | Virginie Mouilleron | Benoit Tabutiaux | Hugo Zanghi

De par le contexte conversationnel digital, l’outil Radarly a été conçu pour permettre de traiter de grands volumes de données hétérogènes en temps réel, de générer de nouveaux indicateurs et de les visualiser sur une interface cohérente et confortable afin d’en tirer des analyses et études pertinentes. Ce document expose les techniques et processus utilisés pour extraire et traiter toutes ces données.

SOFA : Une plateforme d’analyse syntaxique en ligne pour l’ancien français (SOFA : An online Syntactic Old French Annotator)
Gaël Guibon

SOFA une application web dédiée à l’étiquetage syntaxique de l’ancien français. Cette plateforme est une démonstration permettant d’appliquer sur n’importe quel texte, ou sur un des textes d’ancien français, des modèles de lemmatisation, d’annotation morpho-syntaxique, et d’analyse syntaxique, en plus d’en visualiser les performances.

STAM : traduction des textes non structurés (dialectes du Maghreb) (STAM: Translation of unstructured text (Maghreb dialects) The use of communication platforms (social networks, discussion forums)
Mehdi Embarek | Soumya Embarek

L’utilisation des plateformes de communication (réseaux sociaux, forums de discussions, ...) a pris une ampleur considérable. Ces plateformes permettent aux internautes d’exprimer leur avis concernant un sujet, demander ou échanger des informations, commenter un événement, etc. Ainsi, nous retrouvons dans ces différentes sources d’informations une quantité importante de textes rédigés dans des dialectes locaux dont sont originaires les rédacteurs. Cependant, ces textes non structurés rendent l’exploitation des outils de traitement automatique des langues très difficile. Le système STAM aborde cette problématique en proposant un système capable de transcrire automatiquement des textes écrits dans un dialecte parlé dans les pays du Maghreb en un texte facilement interprétable et compréhensible (français ou anglais).

Un système automatique de sélection de réponse en domaine ouvert intégrable à un système de dialogue social (An automatic open-domain response selection system integrable to a social dialogue system)
Franck Charras | Guillaume Dubuisson Duplessis | Vincent Letard | Anne-Laure Ligozat | Sophie Rosset

Cette démonstration présente un système de dialogue en domaine ouvert qui utilise une base d’exemples de dialogue automatiquement constituée depuis un corpus de sous-titres afin de gérer un dialogue social de type « chatbot ».

Tag Thunder : plateforme de démonstration et d’expérimentation (Tag Thunder : demonstration and experimentation platform)
Jean-Marc Lecarpentier | Elena Manishina | Maxence Busson | Fabrice Maurel | Stephane Ferrari

Dans cette démonstration, nous proposons un système qui permettrait aux utilisateurs non-voyants d’obtenir le first glance d’une page web. L’objectif est de réduire le temps d’accès à la structure logico-thématique de la page et de favoriser le développement de stratégies de lecture de haut niveau. Notre concept, appelé Tag Thunder, s’appuie sur une phase de segmentation de la page en zones, suivie d’une étape de représentation des zones par un mot ou groupe de mots, puis une vocalisation simultanée de ces représentants.