Actes de la session industrielle de CORIA-TALN 2025

Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova (Editors)

Anthology ID:: 2025.jeptalnrecital-industrielle
Month:: 6
Year:: 2025
Address:: Marseille, France
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
URL:: https://aclanthology.org/2025.jeptalnrecital-industrielle/
DOI:
Bib Export formats:: BibTeX MODS XML EndNote

pdf bib abs

Apprentissage Actif à l’ère des Grands Modèles de Langue (LLMs)
Shami Thirion Sen | Rime Abrougui | Guillaume Lechien | Damien Nouvel

En TAL, la performance des modèles dépend fortement de la qualité et de la quantité des données annotées. Lorsque ces ressources sont limitées, l’apprentissage actif (Active Learning) offre une solution efficace en sélectionnant les échantillons les plus pertinents à annoter. Traditionnellement, cette tâche est réalisée par des annotateurs humains, mais nous explorons ici le potentiel du grand modèle de langue Mixtral-8x7B pour générer automatiquement ces annotations. Nous analysons l’influence de l’augmentation des données dans un processus d’apprentissage actif pour la reconnaissance d’entités nommées, ainsi que l’impact du prompt et des hyper-paramètres sur la qualité des annotations. Les évaluations conduites sur le corpus WiNER montrent que, malgré l’absence d’annotations manuelles, cette approche permet d’obtenir des performances comparables à notre baseline, tout en réduisant de 80 % la quantité des données.

pdf bib abs

Sentiment analysis, widely used in product reviews, also impacts financial markets by influencing asset prices through microblogs and news articles. Despite research in sentiment-driven finance, many studies focus on sentence-level classification, overlooking its practical application in trading. This study bridges that gap by evaluating sentiment-based trading strategies for generating positive alpha. We conduct a backtesting analysis using sentiment predictions from three models (two classification and one regression) applied to news articles on Dow Jones 30 stocks, comparing them to the benchmark Buy&Hold strategy. Results show all models produced positive returns, with the regression model achieving the highest return of 50.63% over 28 months, outperforming the benchmark Buy&Hold strategy. This highlights the potential of sentiment in enhancing investment strategies and financial decision-making.

pdf bib abs

Nous présentons COLaF, un projet dédié à la collecte et au développement d’outils et de ressources de traitement automatique des langues (TAL) pour le français et les autres langues de France, avec une attention particulière sur les langues et variétés moins dotées. Le projet concerne les données textuelles, audio et vidéo, afin de fournir des corpus et des outils pour le langage écrit, parlé et signé. Le projet inclut la collecte, la normalisation et la documentation de données préexistantes, y compris des données actuellement non accessibles ou non exploitables à des fins de recherche, ainsi que le développement d’outils de TAL adaptés à ces langues, comme des outils pour l’annotation linguistique et pour la traduction automatique. Cet article permet la présentation des principaux défis posés par le projet et de premiers résultats.

pdf bib abs

Les modèles multimodaux peuvent-ils aider à l’interprétation de cartes ? Une étude exploratoire avec GPT-4o
Edith Galy | Ahmed Moubtahij | Azur Handan | Marc Queudot

Cet article explore l’utilisation des modèles de langage multimodaux, en particulier GPT-4o, pour l’interprétation automatisée de cartes de risque d’inondation. Un prototype a été développé afin de permettre à des utilisateurs non-experts de poser des questions en langage naturel et d’obtenir des réponses ancrées sur des données géospatiales visuelles. Un jeu de données ad hoc a été constitué pour évaluer la capacité du modèle à répondre à des questions fermées, selon différentes stratégies de génération. Malgré certaines améliorations grâce à l’usage de schémas de génération structurée et de raisonnements intermédiaires, les résultats révèlent une forte tendance aux hallucinations et des performances insuffisantes pour une application en contexte critique. Cette étude met en évidence les limites actuelles des modèles multimodaux pour l’analyse cartographique, et souligne la nécessité de recherches fondamentales et de corpus plus étendus pour fiabiliser ces approches.

pdf bib abs

SIMI v3 : Une liste de cas patients similaires pour la télé expertise médicale
Pierre Jourlin | Marc-Antoine Sulmon | David Bensoussan | Émilie Mercadal

Cet article présente SIMI v3, une brique logicielle hybridant deux approches d’IA, l’une symbolique et l’autre connexionniste intégrée dans la plateforme web ROFIM, une solution de télé-expertise, e−RCP et téléconsultation médicale. Lors d’une télé-expertise, SIMI v3 permet de rechercher automatiquement des cas patients issus de la littérature scientifique, similaires à celui décrit par le requérant. Une fois cette recherche documentaire accomplie, il propose au médecin requis de les consulter avant de produire son expertise. Ce logiciel, dont les aspect fondamentaux ont été développés au Laboratoire d’Informatique d’Avignon et qui a fait l’objet d’un programme de transfert technologique soutenu par la SATT Sud-Est est aujourd’hui en phase de déploiement sur la plateforme. Nous espérons qu’il permette en définitive de réduire l’errance diagnostique, de raccourcir les échanges entre médecin requérant et médecin requis et d’alerter ce dernier sur la possible existence de maladies rares dont les symptômes pourraient être confondus avec ceux de pathologies plus courantes.

pdf bib abs

SPARK : Exploiter les échanges techniques passés pour améliorer le support client
Steve Bellart | Arnaud Deleruyelle

S.P.A.R.K. (SAP Process Augmented Response Knowledge) est un projet qui vise à concevoir une architecture de génération augmentée par récupération (RAG) adaptée aux dialogues techniques issus de requêtes clients. L’objectif est d’améliorer l’efficacité des consultants SAP dans la résolution des demandes clients en exploitant les connaissances contenues dans des échanges antérieurs similaires. Chaque ticket résolu contient un dialogue entre un client décrivant un problème et un consultant proposant une solution technique détaillée. L’accès rapide à ces solutions déjà éprouvées constitue un atout majeur. Cet article aborde les défis spécifiques liés à l’exploitation des données conversationnelles techniques, présente les solutions proposées pour optimiser la récupération et la génération de réponses pertinentes, et traite des perspectives futures du projet.