Actes de l'atelier Traitement de données langagières dynamiques par les outils et méthodes du TAL 2025 (DYN-TAL)

Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova (Editors)


Anthology ID:
2025.jeptalnrecital-dyntal
Month:
6
Year:
2025
Address:
Marseille, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA \\& ARIA
URL:
https://aclanthology.org/2025.jeptalnrecital-dyntal/
DOI:
Bib Export formats:
BibTeX MODS XML EndNote

pdf bib
Actes de l'atelier Traitement de données langagières dynamiques par les outils et méthodes du TAL 2025 (DYN-TAL)
Frédéric Bechet | Adrian-Gabriel Chifu | Karen Pinel-sauvagnat | Benoit Favre | Eliot Maes | Diana Nurbakova

pdf bib
À la poursuite de phrases: méthodes pour traiter des données dynamiques pour tracer la production de phrases
Ulasik Malgorzata Anna | Mahlow Cerstin

Nous présentons des méthodes de traitement des données dynamiques permettant de retracer le processus de production de phrases. En tant qu’activité incrémentielle et non linéaire, l’écriture produit des versions intermédiaires incomplètes ou mal formées qui évoluent au fil de fréquentes révisions. À l’aide d’outils d’enregistrement des frappes et de traitement du langage naturel (TALN), nous proposons un cadre permettant de reconstruire automatiquement l’historique des phrases. De plus, nous implémentons dans THEtool un modèle qui synchronise l’historique des phrases avec les événements de révision et les patterns de pause. Cette représentation multicouche facilite la compréhension détaillée des aspects cognitifs et linguistiques de la construction des phrases.

pdf bib
Analyse exploratoire des traces numériques clavier pour la prédiction des niveaux d’apprenants
Al SAWAR Ahood | Mallart Cyriel | Pacquetet Erin | Simpkin Andrew | Ballier Nicolas

Cet article présente une typologie des métriques des traces numériques clavier en vue d’une analyse des stratégies d’écriture des différents profils d’apprenants appliquée à une tâche de prédiction du niveau CECRL.

pdf bib
Bursted! Un outil d’agrégation des keystrokes
Bordes Caroline | Olive Thierry | Cislaru Georgeta

Bursted! est un outil qui permet d’analyser les jets textuels, c’est-à-dire dire les segments de textes produits sans interruption lors d’une ou plusieurs sessions d’écriture. Il analyse les fichiers d’enregistrement des frappes au clavier (keylogging) fournis par les logiciels comme Inputlog. Ce travail s’inscrit dans le cadre théorique proposé par Cislaru et Olive (2018) pour étudier le processus de textualisation. L’application Bursted! automatise l’extraction des jets textuels et des variables associées et fournit un fichier au format ‘.csv’ prêt pour des traitements ultérieurs.

pdf bib
Détection automatique des unités linguistiques permettant le maintien de la producton écrite
Feltgen Quentin | Gilquin Gaëtanelle

La production textuelle est segmentée par des pauses en jets textuels de longueur variable, interprétés comme manifestant une certaine cohérence cognitive dans la rédaction. Pour favoriser la fluence de ce processus, les scripteurs peuvent avoir recours à des unités linguistiques qui permettent de maintenir le flux de la production. L’objectif de cette contribution est de proposer une méthode de TAL pour détecter automatiquement ces unités. Nous l’appliquons à un corpus d’apprenants écrit en anglais L2 et montrons, d’une part, que les unités de structuration du texte (connecteurs, etc.) opèrent souvent de manière isolée, et d’autre part que la production peut être maintenue par le recours à des stratégies de complémentation (syntagme prépositionnel, proposition infinitive) qui permettent d’élaborer à partir d’un contenu déjà en place.

pdf bib
Pré-traiter les données d’écriture en temps réel
Jouvenel Amandine | Manseri Kehina

Traiter les données d’écriture en temps réel est une tâche complexe, ces dernières combinant des informations spatiales et temporelles, et conservant les traces du processus d’écriture. Les outils actuels de traitement des données linguistiques - comme les tokenizeurs, les étiqueteurs morpho-syntaxiques ou les parseurs syntaxiques - ne sont pas conçus ni entraînés pour traiter ce type de corpus et de données à haute dimensionalité. Cela soulève donc la problématique du traitement automatique des données d’écriture dynamique. Le travail présenté ici constitue une série de premières expériences portant sur l’étiquetage morpho-syntaxique et le chunking de ces données. Il vise à annoter les données tout en prenant en compte les traces de l’écriture en temps réel, appelées ici disfluences.

pdf bib
Prédiction des pauses dans les données d’écriture en temps réel
Eshkol-taravella Iris | Manseri Kehina | Silai Ioana-Madalina

Cette étude explore la prédiction des pauses dans des données d’écriture enregistrées en temps réel. Deux hypothèses sont testées : (1) les pauses dépendent du contenu lexical des bursts, et (2) les catégories morpho-syntaxiques (POS) influencent leur distribution. Après prétraitement linguistique, plusieurs techniques de classification sont testées. CamemBERT atteint jusqu’à 90 % de précision en classification binaire, suggérant un lien fort entre structure linguistique et pauses.