Annotation en Frames Sémantiques du corpus de dialogue MEDIA

Marie-Jean Meurs, Frédéric Duvert, Frédéric Béchet, Fabrice Lefèvre, Renato De Mori


Abstract
Cet article présente un formalisme de représentation des connaissances qui a été utilisé pour fournir des annotations sémantiques de haut niveau pour le corpus de dialogue oral MEDIA. Ces annotations en structures sémantiques, basées sur le paradigme FrameNet, sont obtenues de manière incrémentale et partiellement automatisée. Nous décrivons le processus d’interprétation automatique qui permet d’obtenir des compositions sémantiques et de générer des hypothèses de frames par inférence. Le corpus MEDIA est un corpus de dialogues en langue française dont les tours de parole de l’utilisateur ont été manuellement transcrits et annotés (niveaux mots et constituants sémantiques de base). Le processus proposé utilise ces niveaux pour produire une annotation de haut niveau en frames sémantiques. La base de connaissances développée (définitions des frames et règles de composition) est présentée, ainsi que les résultats de l’annotation automatique.
Anthology ID:
2008.jeptalnrecital-court.21
Volume:
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Month:
June
Year:
2008
Address:
Avignon, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
199–208
Language:
French
URL:
https://aclanthology.org/2008.jeptalnrecital-court.21
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2008.jeptalnrecital-court.21.pdf