Zied Abidi
2020
Extraction d’information de spécialité avec un système commercial générique (Extracting Medical Information with an Off-the-shelf Software Product)
Clothilde Royan
|
Jean-Marc Langé
|
Zied Abidi
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Atelier DÉfi Fouille de Textes
Nous avons participé à la tâche 3 du Défi Fouille de texte 2020, dédiée à l’extraction d’information de spécialité, dans le but de tester notre produit commercial d’extraction d’information, Watson Knowledge Studio (WKS), face à des équipes académiques et industrielles. Outre la quantité réduite de données d’apprentissage, la nature des annotations des corpus de référence posait des problèmes d’adaptation à notre produit. Aussi avons-nous dû modifier le schéma d’annotation du corpus d’apprentissage, exécuter l’apprentissage, puis appliquer des règles aux résultats obtenus afin d’obtenir des annotations conformes au schéma initial. Nous avons également appliqué des dictionnaires de spécialité (anatomie, pathologie, etc.) pour injecter de la connaissance du domaine et renforcer les modèles d’apprentissage automatique. Au final, nos résultats lors de la phase de test se situent dans la moyenne de l’ensemble des équipes, avec des F-mesures de 0,43 pour la sous-tâche 1 et 0,63 pour la sous-tâche 2.
Search