Amandine Decker
2024
Construction d’une mesure de similarité thématique non supervisée pour les conversations
Amandine Decker
|
Maxime Amblard
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
La structure thématique d’une conversation représente la manière dont l’interaction est organisée à un niveau plus global que le strict enchaînement des interventions. Elle permet de comprendre comment la cohérence est maintenue sur le temps de l’échange. La création d’une mesure de similarité thématique qui donne un score de similarité à deux énoncés du point de vue thématique pourrait nous permettre de produire et d’analyser ces structures. Nous entraînons une mesure non supervisée, basée sur le modèle BERT avec prédiction de la phrase suivante, sur des conversations Reddit. La structure de Reddit nous fournit différents niveaux de proximité de cohérence entre des paires de messages, ce qui nous permet d’entraîner notre modèle avec une fonction de perte basée sur des comparaisons plutôt que sur des valeurs numériques attendues a priori. Cette mesure nous permet de trouver des ensembles d’interventions localement cohérents dans nos conversations Reddit, mais aussi de mesurer la variabilité en termes de thème tout au long d’une conversation.
With a Little Help from my (Linguistic) Friends: Topic segmentation of multi-party casual conversations
Amandine Decker
|
Maxime Amblard
Proceedings of the 5th Workshop on Computational Approaches to Discourse (CODI 2024)
Topics play an important role in the global organisation of a conversation as what is currently discussed constrains the possible contributions of the participant. Understanding the way topics are organised in interaction would provide insight on the structure of dialogue beyond the sequence of utterances. However, studying this high-level structure is a complex task that we try to approach by first segmenting dialogues into smaller topically coherent sets of utterances. Understanding the interactions between these segments would then enable us to propose a model of topic organisation at a dialogue level. In this paper we work with open-domain conversations and try to reach a comparable level of accuracy as recent machine learning based topic segmentation models but with a formal approach. The features we identify as meaningful for this task help us understand better the topical structure of a conversation.
Search