pdf
bib
Actes de la session industrielle de CORIA-TALN 2025
Frédéric Bechet
|
Adrian-Gabriel Chifu
|
Karen Pinel-sauvagnat
|
Benoit Favre
|
Eliot Maes
|
Diana Nurbakova
pdf
bib
abs
Apprentissage Actif à l’ère des Grands Modèles de Langue (LLMs)
Shami Thirion Sen
|
Rime Abrougui
|
Guillaume Lechien
|
Damien Nouvel
En TAL, la performance des modèles dépend fortement de la qualité et de la quantité des données annotées. Lorsque ces ressources sont limitées, l’apprentissage actif (Active Learning) offre une solution efficace en sélectionnant les échantillons les plus pertinents à annoter. Traditionnellement, cette tâche est réalisée par des annotateurs humains, mais nous explorons ici le potentiel du grand modèle de langue Mixtral-8x7B pour générer automatiquement ces annotations. Nous analysons l’influence de l’augmentation des données dans un processus d’apprentissage actif pour la reconnaissance d’entités nommées, ainsi que l’impact du prompt et des hyper-paramètres sur la qualité des annotations. Les évaluations conduites sur le corpus WiNER montrent que, malgré l’absence d’annotations manuelles, cette approche permet d’obtenir des performances comparables à notre baseline, tout en réduisant de 80 % la quantité des données.
pdf
bib
abs
Backtesting des signaux de sentiment pour le trading : évaluer la viabilité de la génération d’alpha à partir de l’analyse de sentiment
Elvys Linhares Pontes
|
Carlos-Emiliano González-Gallardo
|
Georgeta Bordea
|
Jose G Moreno
|
Mohamed Ben Jannet
|
Yuxuan Zhao
|
Antoine Doucet
L’analyse de sentiment, largement utilisée dans les avis de produits, influence également les marchés financiers en affectant les prix des actifs à travers les microblogs et les articles de presse. Bien que la recherche sur la finance basée sur le sentiment soit abondante, de nombreuses études se concentrent sur la classification au niveau des phrases, négligeant son application pratique dans le trading. Cette étude comble cette lacune en évaluant des stratégies de trading basées sur le sentiment pour générer un alpha positif. Nous réalisons une analyse de backtesting en utilisant des prédictions de sentiment de trois modèles (deux basés sur la classification et un basé sur la régression) appliqués aux articles de presse concernant les actions du Dow Jones 30, en les comparant à la stgonzalezgallardo@univtours.frratégie de référence Buy&Hold. Les résultats montrent que tous les modèles ont généré des rendements positifs, le modèle de régression enregistrant le rendement le plus élevé de 50,63% sur 28 mois, surpassant ainsi la stratégie Buy&Hold. Cela souligne le potentiel de l’analyse de sentiment pour affiner les stratégies d’investissement et améliorer la prise de décisions financières.
pdf
bib
abs
COLaF : Corpus et Outils pour les Langues de France et variétés de français
Benoît Sagot
|
Slim Ouni
|
Sam Bigeard
|
Lucence Ing
|
Thibault Clérice
|
Rachel Bawden
|
Emmanuel Vincent
|
Malek Yaich
|
Panagiotis Tsolakis
|
Juliette Janès
|
Rasul Dent
|
Oriane Nédey
|
Vincent Colotte
|
Mostafa Sadeghi
Nous présentons COLaF, un projet dédié à la collecte et au développement d’outils et de ressources de traitement automatique des langues (TAL) pour le français et les autres langues de France, avec une attention particulière sur les langues et variétés moins dotées. Le projet concerne les données textuelles, audio et vidéo, afin de fournir des corpus et des outils pour le langage écrit, parlé et signé. Le projet inclut la collecte, la normalisation et la documentation de données préexistantes, y compris des données actuellement non accessibles ou non exploitables à des fins de recherche, ainsi que le développement d’outils de TAL adaptés à ces langues, comme des outils pour l’annotation linguistique et pour la traduction automatique. Cet article permet la présentation des principaux défis posés par le projet et de premiers résultats.
pdf
bib
abs
Les modèles multimodaux peuvent-ils aider à l’interprétation de cartes ? Une étude exploratoire avec GPT-4o
Edith Galy
|
Ahmed Moubtahij
|
Azur Handan
|
Marc Queudot
Cet article explore l’utilisation des modèles de langage multimodaux, en particulier GPT-4o, pour l’interprétation automatisée de cartes de risque d’inondation. Un prototype a été développé afin de permettre à des utilisateurs non-experts de poser des questions en langage naturel et d’obtenir des réponses ancrées sur des données géospatiales visuelles. Un jeu de données ad hoc a été constitué pour évaluer la capacité du modèle à répondre à des questions fermées, selon différentes stratégies de génération. Malgré certaines améliorations grâce à l’usage de schémas de génération structurée et de raisonnements intermédiaires, les résultats révèlent une forte tendance aux hallucinations et des performances insuffisantes pour une application en contexte critique. Cette étude met en évidence les limites actuelles des modèles multimodaux pour l’analyse cartographique, et souligne la nécessité de recherches fondamentales et de corpus plus étendus pour fiabiliser ces approches.
pdf
bib
abs
SIMI v3 : Une liste de cas patients similaires pour la télé expertise médicale
Pierre Jourlin
|
Marc-Antoine Sulmon
|
David Bensoussan
|
Émilie Mercadal
Cet article présente SIMI v3, une brique logicielle hybridant deux approches d’IA, l’une symbolique et l’autre connexionniste intégrée dans la plateforme web ROFIM, une solution de télé-expertise, e−RCP et téléconsultation médicale. Lors d’une télé-expertise, SIMI v3 permet de rechercher automatiquement des cas patients issus de la littérature scientifique, similaires à celui décrit par le requérant. Une fois cette recherche documentaire accomplie, il propose au médecin requis de les consulter avant de produire son expertise. Ce logiciel, dont les aspect fondamentaux ont été développés au Laboratoire d’Informatique d’Avignon et qui a fait l’objet d’un programme de transfert technologique soutenu par la SATT Sud-Est est aujourd’hui en phase de déploiement sur la plateforme. Nous espérons qu’il permette en définitive de réduire l’errance diagnostique, de raccourcir les échanges entre médecin requérant et médecin requis et d’alerter ce dernier sur la possible existence de maladies rares dont les symptômes pourraient être confondus avec ceux de pathologies plus courantes.
pdf
bib
abs
SPARK : Exploiter les échanges techniques passés pour améliorer le support client
Steve Bellart
|
Arnaud Deleruyelle
S.P.A.R.K. (SAP Process Augmented Response Knowledge) est un projet qui vise à concevoir une architecture de génération augmentée par récupération (RAG) adaptée aux dialogues techniques issus de requêtes clients. L’objectif est d’améliorer l’efficacité des consultants SAP dans la résolution des demandes clients en exploitant les connaissances contenues dans des échanges antérieurs similaires. Chaque ticket résolu contient un dialogue entre un client décrivant un problème et un consultant proposant une solution technique détaillée. L’accès rapide à ces solutions déjà éprouvées constitue un atout majeur. Cet article aborde les défis spécifiques liés à l’exploitation des données conversationnelles techniques, présente les solutions proposées pour optimiser la récupération et la génération de réponses pertinentes, et traite des perspectives futures du projet.