Un corpus multimodal alignant parole, transcription et séquences de pictogrammes dédié à la traduction automatique de la parole vers des pictogrammes

Cécile Macaire, Chloé Dion, Jordan Arrigo, Claire Lemaire, Emmanuelle Esperança-Rodier, Benjamin Lecouteux, Didier Schwab


Abstract
La traduction automatique de la parole vers des pictogrammes peut faciliter la communication entre des soignants et des personnes souffrant de troubles du langage. Cependant, il n’existe pas de formalisme de traduction établi, ni d’ensembles de données accessibles au public pour l’entraînement de systèmes de traduction de la parole vers des pictogrammes. Cet article présente le premier ensemble de données alignant de la parole, du texte et des pictogrammes. Ce corpus comprend plus de 230 heures de parole. Nous discutons de nos choix pour créer une grammaire adaptée à des séquences de pictogrammes. Cette dernière s’articule autour de règles et d’un vocabulaire restreint. La grammaire résulte d’une étude linguistique approfondie des ressources extraites du site Web d’ARASAAC. Nous avons ensuite validé ces règles à l’issue de multiples phases de post-édition par des annotateurs experts. Le corpus proposé est ensuite utilisé pour entraîner un système en cascade traduisant la parole vers des pictogrammes. L’ensemble du corpus est disponible gratuitement sur le site web d’Ortolang sous une licence non commerciale. Il s’agit d’un point de départ pour la recherche portant sur la traduction automatique de la parole vers des pictogrammes.
Anthology ID:
2024.jeptalnrecital-trad.12
Volume:
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
20–21
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-trad.12
DOI:
Bibkey:
Cite (ACL):
Cécile Macaire, Chloé Dion, Jordan Arrigo, Claire Lemaire, Emmanuelle Esperança-Rodier, Benjamin Lecouteux, and Didier Schwab. 2024. Un corpus multimodal alignant parole, transcription et séquences de pictogrammes dédié à la traduction automatique de la parole vers des pictogrammes. In Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 2 : traductions d'articles publiès, pages 20–21, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Un corpus multimodal alignant parole, transcription et séquences de pictogrammes dédié à la traduction automatique de la parole vers des pictogrammes (Macaire et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.jeptalnrecital-trad.12.pdf