Segmentation de texte non-supervisée pour la détection de thématiques à l’aide de plongements lexicaux (Unsupervised text segmentation for topic detection using embeddings )

Alexandra Benamar


Abstract
Cet article présente les principales méthodes de segmentation automatique de documents textuels spécifiques. La tâche de segmentation thématique de texte consiste à analyser un document pour en extraire des sections cohérentes. Les méthodes de segmentation non supervisées cherchent à optimiser une fonction de probabilité de segmentation ou une fonction de similarité qui peut être calculée entre les blocs ou au sein des blocs. Elles sont réparties en trois catégories : les méthodes statistiques, les méthodes à base de graphes et les approches neuronales. Parmi les approches neuronales utilisées, nous nous intéressons tout particulièrement à celles qui utilisent des plongements lexicaux pour représenter des phrases et définir des segments thématiques. Tout d’abord, nous montrons que les plongements lexicaux permettent une amélioration nette des performances par rapport à des méthodes statistiques. Ensuite, nous évaluons l’impact du choix de la représentation vectorielle des phrases pour cette tâche de segmentation non supervisée.
Anthology ID:
2020.jeptalnrecital-recital.1
Volume:
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL
Month:
6
Year:
2020
Address:
Nancy, France
Editors:
Christophe Benzitoun, Chloé Braud, Laurine Huber, David Langlois, Slim Ouni, Sylvain Pogodalla, Stéphane Schneider
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA et AFCP
Note:
Pages:
1–14
Language:
French
URL:
https://aclanthology.org/2020.jeptalnrecital-recital.1
DOI:
Bibkey:
Cite (ACL):
Alexandra Benamar. 2020. Segmentation de texte non-supervisée pour la détection de thématiques à l’aide de plongements lexicaux (Unsupervised text segmentation for topic detection using embeddings ). In Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 3 : Rencontre des Étudiants Chercheurs en Informatique pour le TAL, pages 1–14, Nancy, France. ATALA et AFCP.
Cite (Informal):
Segmentation de texte non-supervisée pour la détection de thématiques à l’aide de plongements lexicaux (Unsupervised text segmentation for topic detection using embeddings ) (Benamar, JEP/TALN/RECITAL 2020)
Copy Citation:
PDF:
https://aclanthology.org/2020.jeptalnrecital-recital.1.pdf