Rim Abrougui


2023

pdf bib
Les jeux de données en compréhension du langage naturel et parlé : paradigmes d’annotation et représentations sémantiques
Rim Abrougui
Actes de CORIA-TALN 2023. Actes des 16e Rencontres Jeunes Chercheurs en RI (RJCRI) et 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL)

La compréhension du langage naturel et parlé (NLU/SLU) couvre le problème d’extraire et d’annoter la structure sémantique, à partir des énoncés des utilisateurs dans le contexte des interactions humain/machine, telles que les systèmes de dialogue. Elle se compose souvent de deux tâches principales : la détection des intentions et la classification des concepts. Dans cet article, différents corpora SLU sont étudiés au niveau formel et sémantique : leurs différents formats d’annotations (à plat et structuré) et leurs ontologies ont été comparés et discutés. Avec leur pouvoir expressif gardant la hiérarchie sémantique entre les intentions et les concepts, les représentations sémantiques structurées sous forme de graphe ont été mises en exergue. En se positionnant vis à vis de la littérature et pour les futures études, une projection sémantique et une modification au niveau de l’ontologie du corpus MultiWOZ ont été proposées.

pdf bib
Les jeux de données en compréhension du langage naturel et parlé : paradigmes d’annotation et représentations sémantiques
Rim Abrougui
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 6 : projets

La compréhension du langage naturel et parlé (NLU/SLU) couvre le problème d’extraire et d’annoter la structure sémantique, à partir des énoncés des utilisateurs dans le contexte des interactions humain/machine, telles que les systèmes de dialogue. Elle se compose souvent de deux tâches principales : la détection des intentions et la classification des concepts. Dans cet article, différents corpora SLU sont étudiés au niveau formel et sémantique : leurs différents formats d’annotations (à plat et structuré) et leurs ontologies ont été comparés et discutés. Avec leur pouvoir expressif gardant la hiérarchie sémantique entre les intentions et les concepts, les représentations sémantiques structurées sous forme de graphe ont été mises en exergue. En se positionnant vis à vis de la littérature et pour les futures études, une projection sémantique et une modification au niveau de l’ontologie du corpus MultiWOZ ont été proposées.

2022

pdf bib
Étiquetage ou génération de séquences pour la compréhension automatique du langage en contexte d’interaction? (Sequence tagging or sequence generation for Natural Language Understanding ?)
Rim Abrougui | Géraldine Damnati | Johannes Heinecke | Frédéric Béchet
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale

La tâche de compréhension automatique du langage en contexte d’interaction (NLU pour Natural Language Understanding) est souvent réduite à la détection d’intentions et de concepts sur des corpus mono-domaines annotés avec une seule intention par énoncé. Afin de dépasser ce paradigme, nous cherchons à aborder des référentiels plus complexes en visant des représentations sémantiques structurées au-delà du simple modèle intention/concept. Nous nous intéressons au corpus MultiWOZ, couramment utilisé pour le suivi de l’état du dialogue. Nous questionnons la projection de ces annotations sémantiques complexes pour le NLU, en comparant plusieurs approches d’étiquetage de séquence, puis en proposant un nouveau formalisme inspiré des méthodes de génération de graphe pour la modélisation sémantique AMR. Nous discutons enfin le potentiel des approches génératives.

2020

pdf bib
‘Il était une fois’ les patterns prosodiques des contes de fée (‘Once upon a time’ prosodic patterns of fairy tales)
Rim Abrougui | Katarina Bartkova
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 1 : Journées d'Études sur la Parole

Nous étudions ici la différence des patterns prosodiques entre deux styles de lecture, un que nous appelons ‘lecture littéraire neutre’ et un style de ‘lecture des contes’. Les données appartenant au style de ‘lecture de contes’ comportent deux sous-ensembles, des contes destinés aux jeunes enfants (0-6 ans) et des contes destinés aux enfants plus âgés et aux adultes. Les corpus ont été manuellement annotés avec des étiquettes sémantico-prosodiques exprimant des attitudes, des émotions et d’autres styles prosodiques. Une analyse détaillée des caractéristiques prosodiques nous a permis d’identifier les traits pertinents des patterns intonatifs des différentes étiquettes et des différents styles de lecture. Une quantification vectorielle, utilisant essentiellement des informations de F0, a été utilisée pour dégager les patterns prosodiques typiques correspondant aux différentes étiquettes. Une classification automatique basée sur des paramètres prosodiques a montré une bonne identification des étiquettes quand leur fréquence était suffisamment élevée pour obtenir une modélisation robuste.