Actes de l'atelier Avancement de l’AMR et de l’Analyse Sémantique 2025 (4AS)
Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova (Editors)
- Anthology ID:
- 2025.jeptalnrecital-4as
- Month:
- 6
- Year:
- 2025
- Address:
- Marseille, France
- Venue:
- JEP/TALN/RECITAL
- SIG:
- Publisher:
- ATALA \\& ARIA
- URL:
- https://aclanthology.org/2025.jeptalnrecital-4as/
- DOI:
Actes de l'atelier Avancement de l’AMR et de l’Analyse Sémantique 2025 (4AS)
Frédéric Bechet
|
Adrian-Gabriel Chifu
|
Karen Pinel-sauvagnat
|
Benoit Favre
|
Eliot Maes
|
Diana Nurbakova
L’essentiel est invisible pour les représentations sémantiques
Amandine Decker
|
Maxime Amblard
L’analyse sémantique est un terrain de recherche dynamique cherchant à produire des représentations formelles du sens au-delà de la syntaxe. Ces représentations détaillées peuvent être utilisées comme base pour la compréhension de la langue ( Natural Language Understanding ) ou de la génération (Natural Language Generation ) par exemple. Bien que ces représentations permettent une analyse fine, elles ne couvrent pas certains aspects cruciaux des usages réels de la langue. La plupart des formalismes de représentation sémantiques comme les AMR, les DRS ou les UMR fonctionnent hors contexte, ce qui revient à ignorer une partie importante du contenu des énoncés analysés. Dans cet article nous discutons de différents aspects de l’usage de la langue laissés de côté par les formalismes de représentations sémantiques. Nous soutenons que les travaux futurs dans ce domaine devraient inclure l’aspect interactif du langage à l’extension de ces formalismes.
Prétraitement syntaxique pour enrichir le Bag of Words en Topic Modeling
Connor MacLean
|
Denis Cavallucci
Cet article propose une méthode de prétraitement innovante pour la topic modeling avec les modèles Latent Dirichlet Allocation (LDA) (Blei et al. , 2003) et Embedding Topic Model (ETM) (Dieng et al. , 2019), qui repose sur l’analyse des dépendances syntaxiques afin de construire des représentations plus riches du texte. En extrayant les têtes des groupes nominaux et verbaux ainsi que leurs compléments, notre approche génère des n-grammes syntaxiques (sn-grammes) plus informatifs que des bigrammes linéaires. Nous démontrons que cette stratégie permet de capturer les structures sémantiques complexes dans un corpus scientifique en français sur les énergies. Une évaluation expérimentale montre que, comparée à un prétraitement classique basé sur des unigrammes, notre approche accroît la diversité des sujets générés, tout en maintenant une cohérence raisonnable. Nous recommandons l’usage de métriques supplémentaires, telles que l’ Inversed Rank-Biased Overlap (IRBO), pour évaluer cette diversité thématique. Nos résultats suggèrent que cette méthode enrichit la granularité des sujets extraits et permet des analyses plus fines de grands corpus textuels. Ce travail s’inscrit dans un projet de thèse de fouille de textes dans le but de mieux cibler des startups innovantes dans les énergies et les analyser selon la méthode TRIZ de résolution de contradictions techniques.
Ressources lexicales pour la sémantique : WordNet, BabelNet, PropBank, FrameNet, DBpedia et SUMO
Ahana Chattopadhyay
Cet article offre un aperçu concis des ressources lexicales ci-après, dans le cadre de la sémantique computationnelle : WordNet, BabelNet, PropBank, FrameNet, DBpedia et SUMO. L’accent est mis sur leur structure et leur application.