Following the Yellow Vest crisis that occurred in France in 2018, the French government launched the Grand Débat National, which gathered citizens’ contributions.This paper presents a semantic analysis of these contributions by segmenting them into sentences and identifying the topics addressed using clustering techniques. The study tests several combinations of French language models and community detection algorithms, aiming to identify the most effective pairing for grouping sentences based on thematic similarity. Performance is evaluated using the number of clusters generated and standard clustering metrics.Principal Component Analysis (PCA) is employed to assess the impact of dimensionality reduction on sentence embeddings and clustering quality. Cluster merging methods are also developed to reduce redundancy and improve the relevance of the identified topics.Finally, the results help refine semantic analysis and shed light on the main concerns expressed by citizens.
Ce résumé présente le travail de recherche détaillé dans l’article (Guembour et al., 2023). Ce travail s’intègre au projet PARoles de VIlleS (PARVIS, https://parvis.hypotheses.org/) ; il se concentre sur la caractérisation de la ville du futur dans un corpus de romans de science-fiction et de fictions climatiques constitué par l’équipe PARVIS, en utilisant des techniques de traitement automatique des langues. L’objectif est d’analyser les images de la ville du futur à travers les éléments qu’elle contient(lieux, objets urbains, etc.) et les fonctions qui leur sont associées. Cependant, tous les romans du corpus ne parlent pas de la ville, d’où la nécessité d’identifier ceux dans lesquels elle constitue le cadre dans lequel s’intègrent l’action et les personnages. Pour cela, une ressource terminologique (Topalov et al., 2010) permettant d’identifier les éléments spécifiques de la ville a été utilisée. Elle regroupe 533 mots, en majorité des noms, désignés par la forme OOC (abréviation de ”Object Of the City” pour ”Objets de la ville”). Un algorithme de clustering fondé sur les fréquences des OOC dans les romans est utilisé pour identifier ceux de la ville, et ainsi construire un nouveau corpus qui est spécifique à la ville. Les OOC ayant permis de construire ce nouveau corpus n’ont pas tous les mêmes fréquences et donc pas le même poids dans la description de la ville du futur. Un algorithme de co-clustering a été appliqué sur les fréquences des OOC dans le nouveau corpus afin d’identifier ceux ayant un poids important dans la description de la ville ; ces derniers sont appelés OOC discriminants. Un parseur de dépendance syntaxique est ensuite mis en oeuvre sur les phrases du nouveau corpus afin d’extraire les fonctions (verbes) associées aux OOC discriminants. Des algorithmes de clustering (et des techniques de réduction de dimension pour la visualisation des résultats) sont ensuite utilisés de manière itérative sur les cinq fonctions les plus fréquentes de chaque OOC discriminant pour regrouper ces OOC afin d’identifier d’éventuelles fonctions nouvelles ou anciennes associées à des OOC (anciens ou nouveaux objets de la ville). Les résultats montrent que la ville du futur (dans le corpus PARVIS), comme celle d’aujourd’hui, vise à répondre principalement à deux problématiques principales : la circulation et l’habitation.
Les lieux constituent une information structurante de nombreux textes (récits, romans, articles journalistiques, guides touristiques, itinéraires de randonnées, etc.) et leur recensement et leur analyse doit tenir compte des aspects thématiques abordés dans les textes. Le travail proposé ici s’inscrit dans les domaines de la linguistique de corpus et de la cartographie. La définition de lieu est augmentée de celle d’objet localisé et la désignation de ces lieux peut alors être construite sur un nom propre ou un nom commun. Des expérimentations sont menées afin d’identifier les lieux noms propres avec des gazetiers et les lieux noms communs grâce à un modèle d’apprentissage automatique. Les résultats sont discutés sous la forme d’une comparaison entre les caractéristiques linguistiques des noms de lieux et les propriétés visuelles que devront satisfaire leur représentation cartographique.