Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données

Julie Halbout; Diandra Fabre

Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données

Abstract

Dans cet article, nous présentons une étude sur la problématique de l’alignement automatique des données dans un corpus constitué de discours en français parlé, sous-titrés en français écrit et interprétés en langue des signes française (LSF). Après une introduction précisant le processus bien particulier de l’interprétation en langue des signes, nous dressons un tour d’horizon des ensembles de données existants pour la LSF ainsi que les spécificités du corpus Matignon-LSF, constitué à partir des comptes-rendus vidéos hebdomadaires du conseil des ministres. Nous montrons ensuite sur quelques exemples certains des phénomènes observés sur la problématique de l’alignement temporel entre les sous-titres synchronisés avec l’audio, et la LSF interprétée qui subit un décalage temporel. Nous en concluons que le niveau d’alignement ne peut pas être celui des phrases en français écrit et proposons quelques pistes pour la suite.

Anthology ID:: 2025.jeptalnrecital-recital.6
Volume:: Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL)
Month:: 6
Year:: 2025
Address:: Marseille, France
Editors:: Frédéric Bechet, Adrian-Gabriel Chifu, Karen Pinel-sauvagnat, Benoit Favre, Eliot Maes, Diana Nurbakova
Venue:: JEP/TALN/RECITAL
SIG:
Publisher:: ATALA \\& ARIA
Note:
Pages:: 91–103
Language:: French
URL:: https://aclanthology.org/2025.jeptalnrecital-recital.6/
DOI:
Bibkey:
Cite (ACL):: Julie Halbout and Diandra Fabre. 2025. Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données. In Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL), pages 91–103, Marseille, France. ATALA \\& ARIA.
Cite (Informal):: Corpus bilingue sous-titrage et Langue des Signes Française : la problématique de l’alignement automatique des données (Halbout & Fabre, JEP/TALN/RECITAL 2025)
Copy Citation:
PDF:: https://aclanthology.org/2025.jeptalnrecital-recital.6.pdf

PDF Cite Search Fix data