Philippe Suignard


2021

pdf bib
Participation d’EDF R&D à DEFT 2021 (EDF R&D Participation to DEFT 2021)
Philippe Suignard | Alexandra Benamar | Nazim Messous | Clément Christophe | Marie Jubault | Meryl Bothua
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier DÉfi Fouille de Textes (DEFT)

Ce papier présente la participation d’EDF R&D à la campagne d’évaluation DEFT 2021. Notre équipe a participé aux deux dernières tâches proposées (T2 et T3), deux tâches sur le calcul de similarité sémantique entre textes courts, et s’est classée 1ère sur ces deux tâches. Cette édition proposait deux nouvelles tâches pour l’évaluation automatique de réponses d’étudiants à des questions d’enseignants. Le corpus se composait d’une centaine d’énoncés en informatique avec la correction de l’enseignant et les réponses d’une cinquantaine d’étudiants en moyenne par question, sur 2 ans. La tâche 2 consistait à évaluer les réponses des étudiants en prenant pour référence la correction produite par l’enseignant et la tâche 3 à évaluer les réponses d’étudiants à partir d’un ensemble composé d’un énoncé et de plusieurs réponses d’étudiants déjà corrigées par l’enseignant.e.

2020

pdf bib
Participation d’EDF R&D à DEFT 2020 (This paper describes the participation of EDF R&D at DEFT 2020 evaluation campaign)
Danrun Cao | Alexandra Benamar | Manel Boumghar | Meryl Bothua | Lydia Ould Ouali | Philippe Suignard
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Atelier DÉfi Fouille de Textes

Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2020. Notre équipe a participé aux trois tâchés proposées : deux tâches sur le calcul de similarité sémantique entre phrases et une tâche sur l’extraction d’information fine autour d’une douzaine de catégories. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des scores au-dessus de la moyenne pour les tâches 1 et 2 et se classe 2e sur la tâche 1. Les méthodes proposées sont facilement transposables à d’autres cas d’application de détection de similarité qui peuvent concerner plusieurs entités du groupe EDF. Notre participation à la tâche 3 nous a permis de tester les avantages et limites de l’outil SpaCy sur l’extraction d’information.

2019

pdf bib
Participation d’EDF R&D à DEFT 2019 : des vecteurs et des règles ! (EDF R&D submission to DEFT 2019 )
Philippe Suignard | Meryl Bothua | Alexandra Benamar
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Défi Fouille de Textes (atelier TALN-RECITAL)

Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2019. Notre équipe a participé aux trois tâchés proposées : Indexation de cas cliniques (Tâche T1) ; Détection de similarité entre des cas cliniques et des discussions (Tâche T2) ; Extraction d’information dans des cas cliniques (Tâche 3). Nous avons utilisé des méthodes symboliques et/ou numériques en fonction de ces tâches. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des résultats satisfaisants sur l’ensemble des taches et se classe première sur la tache 2. Les méthodes proposées sont facilement transposables à d’autres tâches d’indexation et de détection de similarité qui peuvent intéresser plusieurs entités du groupe EDF.

2018

pdf bib
Participation d’EDF R&D à DEFT 2018 (Here the title in English)
Philippe Suignard | Lou Charaudeau | Manel Boumghar | Meryl Bothua | Delphine Lagarde
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT

Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2018. Notre équipe a participé aux deux premières tâches : classification des tweets en transport/non-transport (Tâche T1) et détection de la polarité globale des tweets (Tâche T2). Nous avons utilisé 3 méthodes différentes s’appuyant sur Word2Vec, CNN et LSTM. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des résultats très corrects et se classe 1ère équipe non académique. Les méthodes proposées sont facilement transposables à d’autres tâches de classification de textes courts et peuvent intéresser plusieurs entités du groupe EDF.

2017

pdf bib
Wordsurf : un outil pour naviguer dans un espace de « Word Embeddings » (Wordsurf : a tool to surf in a “word embeddings” space)
Philippe Suignard
Actes des 24ème Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 - Démonstrations

Dans cet article, nous présentons un outil appelé « Wordsurf » pour faciliter la phase d’exploration et de navigation dans un espace de « Word Embeddings » préalablement entrainé sur des corpus de textes avec Word2Vec.

2013

pdf bib
Using contexts for automatic or semi-automatic correction of customer complaints (Utilisation de contextes pour la correction automatique ou semi-automatique de réclamations clients) [in French]
Philippe Suignard | Sofiane Kerroua
Proceedings of TALN 2013 (Volume 2: Short Papers)

2012

pdf bib
La longueur des tours de parole comme critère de sélection de conversations dans un centre d’appels (Turn-taking length as criterion to select call center conversations) [in French]
Philippe Suignard | Frederik Cailliau | Ariane Cavet
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 2: TALN

2009

pdf bib
Segmentation et classification non supervisée de conversations téléphoniques automatiquement retranscrites
Laurent Bozzi | Philippe Suignard | Claire Waast-Richard
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Cette étude porte sur l’analyse de conversations entre des clients et des téléconseillers d’EDF. Elle propose une chaîne de traitements permettant d’automatiser la détection des sujets abordés dans chaque conversation. L’aspect multi-thématique des conversations nous incite à trouver une unité de documents entre le simple tour de parole et la conversation entière. Cette démarche enchaîne une étape de segmentation de la conversation en thèmes homogènes basée sur la notion de cohésion lexicale, puis une étape de text-mining comportant une analyse linguistique enrichie d’un vocabulaire métier spécifique à EDF, et enfin une classification non supervisée des segments obtenus. Plusieurs algorithmes de segmentation ont été évalués sur un corpus de test, segmenté et annoté manuellement : le plus « proche » de la segmentation de référence est C99. Cette démarche, appliquée à la fois sur un corpus de conversations transcrites à la main, et sur les mêmes conversations décodées par un moteur de reconnaissance vocale, aboutit quasiment à l’obtention des 20 mêmes classes thématiques.