Manseri Kehina


2025

pdf bib
Pré-traiter les données d’écriture en temps réel
Jouvenel Amandine | Manseri Kehina
Actes de l'atelier Traitement de données langagières dynamiques par les outils et méthodes du TAL 2025 (DYN-TAL)

Traiter les données d’écriture en temps réel est une tâche complexe, ces dernières combinant des informations spatiales et temporelles, et conservant les traces du processus d’écriture. Les outils actuels de traitement des données linguistiques - comme les tokenizeurs, les étiqueteurs morpho-syntaxiques ou les parseurs syntaxiques - ne sont pas conçus ni entraînés pour traiter ce type de corpus et de données à haute dimensionalité. Cela soulève donc la problématique du traitement automatique des données d’écriture dynamique. Le travail présenté ici constitue une série de premières expériences portant sur l’étiquetage morpho-syntaxique et le chunking de ces données. Il vise à annoter les données tout en prenant en compte les traces de l’écriture en temps réel, appelées ici disfluences.

pdf bib
Prédiction des pauses dans les données d’écriture en temps réel
Eshkol-taravella Iris | Manseri Kehina | Silai Ioana-Madalina
Actes de l'atelier Traitement de données langagières dynamiques par les outils et méthodes du TAL 2025 (DYN-TAL)

Cette étude explore la prédiction des pauses dans des données d’écriture enregistrées en temps réel. Deux hypothèses sont testées : (1) les pauses dépendent du contenu lexical des bursts, et (2) les catégories morpho-syntaxiques (POS) influencent leur distribution. Après prétraitement linguistique, plusieurs techniques de classification sont testées. CamemBERT atteint jusqu’à 90 % de précision en classification binaire, suggérant un lien fort entre structure linguistique et pauses.