L’accès à l’information dans la documentation technique est une application particulière et complexe du traitement du langage naturel et de la recherche d’information. La difficulté tient aux contraintes propres des langages métier spécialisés et semi-contrôlés. Dans ce document, nous proposons un outil d’accès à l’information dans différents types de documents. Notre solution exploite conjointement la structure organisationnelle des documents et leur contenu informationnel, pour extraire des informations métier dans des différents corpus. Nous proposons un système basé sur des interactions expert-machine dans un cycle d’amélioration continu des modèles d’extraction. Notre approche exploite des modèles d’apprentissage à faible supervision ne nécessitant pas d’expertise en ingénierie des langues. Notre système intègre l’utilisateur dans le processus de qualification de l’information et permet de guider son apprentissage, afin de rendre ses modèles plus performants au fil du temps.
Dans cet article, nous décrivons une approche exploratoire pour entraîner des modèles de langue et résoudre des tâches d’appariement entre phrases issues de corpus en français et relevant du domaine médical. Nous montrons que, dans un contexte où les données d’entraînement sont en nombre restreint, il peut être intéressant d’opérer un apprentissage par transfert, d’une langue dont nous disposons de plus de ressources pour l’entraînement, vers une langue cible moins dotée de données d’entraînement (le français dans notre cas). Les résultats de nos expérimentations montrent que les modèles de langue multilingues sont capables de transférer des représentations d’une langue à l’autre de façon efficace pour résoudre des tâches de similarité sémantique telles que celles proposées dans le cadre de l’édition 2020 du Défi fouille de texte (DEFT).
The lack of time efficient and reliable evalu-ation methods is hampering the development of conversational dialogue systems (chat bots). Evaluations that require humans to converse with chat bots are time and cost intensive, put high cognitive demands on the human judges, and tend to yield low quality results. In this work, we introduce Spot The Bot, a cost-efficient and robust evaluation framework that replaces human-bot conversations with conversations between bots. Human judges then only annotate for each entity in a conversation whether they think it is human or not (assuming there are humans participants in these conversations). These annotations then allow us to rank chat bots regarding their ability to mimic conversational behaviour of humans. Since we expect that all bots are eventually recognized as such, we incorporate a metric that measures which chat bot is able to uphold human-like be-havior the longest, i.e.Survival Analysis. This metric has the ability to correlate a bot’s performance to certain of its characteristics (e.g.fluency or sensibleness), yielding interpretable results. The comparably low cost of our frame-work allows for frequent evaluations of chatbots during their evaluation cycle. We empirically validate our claims by applying Spot The Bot to three domains, evaluating several state-of-the-art chat bots, and drawing comparisonsto related work. The framework is released asa ready-to-use tool.