Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 4 : Démonstrations et résumés d'articles internationaux
Le projet AMALDarium vise à offrir sur la plateforme lingwarium.org (1) un service d’analyse morphologique de l’allemand (AMALD-serveur), à grande couverture et de haute qualité, traitant la flexion, la dérivation et la composition, ainsi que les verbes à particule séparable séparée (ou agglutinée), (2) un corpus de référence de haute qualité donnant tous les résultats possibles de l’analyse morphologique, avant filtrage par une méthode statistique ou syntaxique, et (3) une plateforme (AMALD-éval) permettant d’organiser des évaluations comparatives, dans la perspective d’améliorer les performances d’algorithmes d’apprentissage en morphologie. Nous présentons ici une démonstration en ligne seulement de AMALD-serveur et AMALD-corpus. Le corpus est un sous-ensemble anonymisé et vérifié d’un corpus en allemand formé de textes sur le cancer du sein, contenant de nombreux mots composés techniques.
Nous présentons un outil informatique en source libre permettant, à partir d’un dictionnaire sous format électronique de générer une application Android. L’objectif est de tirer profit de l’augmentation spectaculaire des utilisateurs de mobiles multifonctions dans de nombreuses régions du monde, notamment en Afrique, pour permettre aux locuteurs de langues moins dotées de bénéficier de dictionnaires de bonne qualité, faciles à utiliser et de s’impliquer dans la collecte de données. Cet outil est conçu pour être compatible avec les principaux formats lexicographiques.
Cette démonstration présente une solution performante de désidentification de données texte selon 13 types d’entités nommées et entraînée sur des données issues de la relation client.
Dans cet article, nous présentons la mise en œuvre d’une chaîne de traitement sémantique complète dédiée aux conversations audio issues de centres d’appel téléphoniques, depuis la phase de transcription automatique jusqu’à l’exploitation des résultats, en passant par l’étape d’analyse sémantique des énoncés. Nous décrivons ici le fonctionnement des différentes analyses que notre équipe développe, ainsi que la plateforme interactive permettant de restituer les résultats agrégés de toutes les conversations analysées.
Au sein de cette démonstration, nous présentons Muzeeglot, une interface web permettant de visualiser des espaces de représentations de genres musicaux provenant de sources variées et de langues différentes. Nous montrons l’efficacité de notre système à prédire automatiquement les genres correspondant à une entité musicale (titre, artiste, album...) selon une certaine source ou langue, étant données des annotations provenant de sources ou de langues différentes.
Nous présentons FlexEval, un outil de conception et déploiement de tests perceptifs multimédias sous la forme d’un site web léger. S’appuyant sur des technologies standards et ouvertes du web, notamment le framework Flask, FlexEval offre une grande souplesse de conception, des gages de pérennité, ainsi que le support de communautés actives d’utilisateurs. L’application est disponible en open-source via le dépôt Git https://gitlab.inria.fr/expression/tools/flexeval.
Le travail présenté s’intéresse à la perception qu’ont les habitants de leur ville en se fondant sur un corpus de conversations orales spontanées. La chaîne de traitement conditionnant l’analyse de la perception se décompose en trois étapes : la détection des noms de lieux, l’analyse de la perception identifiée et la visualisation cartographique des informations extraites.
Cet article décrit un prototype axé sur la prédiction du niveau de compétence des apprenants de l’anglais. Le système repose sur un modèle d’apprentissage supervisé, couplé à une interface web.
LEX est un jeu avec un but développé dans l’optique d’explorer plus avant les éléments et principes de la conception de jeux tels qu’ils sont pratiqués dans l’industrie vidéoludique, pour les mettre au service de la conception de jeux sérieux. Le premier prototype repose sur un mode bac à sable pour faire appel à la créativité du joueur et renforcer l’immersion ludique.
SkiF Maker présente une solution innovatrice pour toute entreprise de services numériques (ESN) visant à améliorer son processus de recrutement de talents, la gestion des compétences de ses ressources humaines et la satisfaction des besoins de ses clients. Cet outil offre aux ESN un gain considérable en terme de temps de travail et leur évite un travail manuel souvent laborieux et non plaisant.
Cet article décrit Iagotchi, un personnage virtuel philosophique et artistique qui apprend et développe des connaissances à partir de ses interactions avec l’humain. Iagotchi se présente à la fois comme un apprenant et un expert avec comme objectifs principaux (1) d’accompagner l’homme dans ses questionnements, (2) de lui fournir des réponses pertinentes sur la base de ses requêtes et (3) de générer des textes poétiques cohérents. Dans ce travail, nous décrivons l’architecture du système de Iagotchi et les composants clés tels que le moteur de conversation, le gestionnaire de sujets et le générateur de poésies.
Nous proposons une démonstration sur l’extraction de contenu textuel dans des pages web ainsi que son évaluation. Nous nous concentrons sur les pages web contenant du texte (articles de presse, magazines en ligne et blogs) et montrons que les textes peuvent varier grandement selon différentes dimensions : diachronique, géographique et typologique. Dès lors, les outils et mesures d’évaluation correspondantes sont sujettes à caution : les indicateurs communément utilisés et censés présider au choix de l’outil approprié par les utilisateurs finaux sont à la fois imprécis et difficiles à interpréter.
Dans les moteurs de recherche sur Internet, l’une des tâches les plus importantes vise à identifier l’intention de l’utilisateur. Cet article présente notre étude pour proposer un nouveau système de détection d’intention pour le moteur de recherche sur Internet Qwant. Des logs de clic au système de détection d’intention, l’ensemble du processus est expliqué, y compris les contraintes industrielles qui ont dû être prises en compte. Une analyse manuelle des données groupées a d’abord été appliquée sur les journaux afin de mieux comprendre les objectifs de l’utilisateur et de choisir les catégories d’intention pertinentes. Lorsque la recherche satisfait aux contraintes industrielles, il faut faire des choix architecturaux et faire des concessions. Cet article explique les contraintes et les résultats obtenus pour ce nouveau système en ligne.
La démonstration de résumé et de traduction automatique de vidéos résulte de nos travaux dans le projet AMIS. L’objectif du projet était d’aider un voyageur à comprendre les nouvelles dans un pays étranger. Pour cela, le projet propose de résumer et traduire automatiquement une vidéo en langue étrangère (ici, l’arabe). Un autre objectif du projet était aussi de comparer les opinions et sentiments exprimés dans plusieurs vidéos comparables. La démonstration porte sur l’aspect résumé, transcription et traduction. Les exemples montrés permettront de comprendre et mesurer qualitativement les résultats du projet.
Cette démonstration présente une extension de nos outils d’analyse syntaxique et d’étiquetage morphosyntaxique qui prend en compte la résolution d’anaphores pronominales non seulement à l’intérieur d’une phrase, mais également si l’antécédent se trouve dans la phrase précédente. Autant l’analyseur que l’étiqueteur effectuant une analyse syntaxique complète des phrases, ces outils affichent également les fonctions grammaticales des constituants (sujet, objet direct, etc.) et les arguments des verbes. Une version de cette démonstration est disponible sur le Web.
Nous présentons l’instrument de navigation Spiderlex, mis au point pour permettre une exploration dynamique des Réseaux Lexicaux du Français et de l’Anglais (RL-fr et RL-en). Spiderlex est à la fois un outil de visualisation des données lexicales et un instrument de travail pour les lexicographes.
Le consortium CORLI développe des outils pour faciliter le dépôt, l’interrogation et la réutilisation des corpus oraux. Ces outils libres et open source sont basés sur la TEI comme format commun de partage. Nous présenterons deux outils différents : un outil pour la saisie et l’édition de fichiers de métadonnées et un outil permettant d’intégrer et d’utiliser des corpus de différentes sources de données transcrits dans différents logiciels.
Préalable indispensable à de nombreuses activités de TAL et de fouille de textes, l’élaboration d’un corpus peut nécessiter plusieurs phases de traitement pour améliorer sa qualité et ainsi obtenir les meilleurs résultats d’analyse automatique. Les post-traitements appliqués à un tel corpus, notamment pour garantir la pertinence de son contenu et l’homogénéité de son format, pourront s’avérer d’autant plus coûteux et fastidieux que la construction du corpus de travail aura été imprécise. Cette démonstration se proposera de tirer parti de la plateforme ISTEX et de ses services associés pour constituer, au travers d’un cycle itératif, un corpus homogène de publications scientifiquement pertinentes pour une utilisation simplifiée par des outils de fouille.
Nous présentons des résumés en français et en anglais de l’article (Marzinotto et al., 2019) présenté à la conférence North American Chapter of the Association for Computational Linguistics : Human Language Technologies en 2019.