2022
pdf
bib
abs
Toolbox : une chaîne de traitement de corpus pour les humanités numériques (Toolbox : a corpus processing pipeline for digital humanities)
Johanna Mayra Cordova
|
Yoann Dupont
|
Ljudmila Petkovic
|
James Gawley
|
Motasem Alrahabi
|
Glenn Roe
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations
Le projet Toolbox propose une chaîne de traitement pour la manipulation et le traitement de corpus textuels incluant la numérisation (OCR/HTR), la conversion au format TEI, la fouille de texte (reconnaissance d’entités nommées) et la visualisation de données. Les fonctionnalités sont accessibles via une interface en ligne qui sert de surcouche graphique à des scripts développés par nos soins ou utilisant des outils externes. Elles permettent d’automatiser les tâches élémentaires de traitement de corpus pour les chercheurs en humanités numériques. Cet outil est ouvert aux contributions externes.
pdf
bib
abs
Les animaux chinois de Buffon : identification automatique des jugements critiques dans l’Histoire naturelle (1749-1789) (Buffon’s China: digital editing and semantic exploration of Natural History (1749-1789))
Axel Le Roy
|
Motasem Alrahabi
|
Glenn Roe
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Atelier TAL et Humanités Numériques (TAL-HN)
Nous présentons un travail en cours sur la structuration et l’exploration d’un grand corpus textuel de Georges-Louis de Buffon, célèbre naturaliste français du XVIII e siècle. Il s’agit d’éditer en XML-TEI les trente-six volumes de son Histoire naturelle et d’effectuer une première exploration autour de la thématique des animaux chinois. Afin de comprendre la représentation du monde chinois et plus particulièrement la construction et la discussion des savoirs sur les animaux dans l’œuvre de Buffon, nous avons commencé à explorer le corpus selon une approche symbolique à base de lexique. Celleci permet d’identifier dans les textes les passages porteurs de modalités subjectives: opinions, sentiments ou émotions. Malgré la simplicité de notre approche, les résultats nous ont permis de faire des constats intéressants sur la critique des sources chez Buffon, sur sa description des animaux et sur son observation des pratiques chinoises.
2016
pdf
bib
abs
E-Quotes : un outil de navigation textuelle guidée par les annotations sémantiques (E-Quotes : A semantic annotations-driven tool for textual navigation)
Motasem Alrahabi
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 5 : Démonstrations
Nous présentons E-Quotes, un outil de navigation textuelle guidée par les annotations sémantiques. Le système permet de localiser les mots clés et leurs variantes dans les citations sémantiquement catégorisés dans corpus annoté, et de naviguer entre ces citations. Nous avons expérimenté ce système sur un corpus de littérature française automatiquement annoté selon des catégories sémantiques présentes dans le contexte des citations, comme par exemple la définition, l’argumentation, l’opinion, l’ironie ou la rumeur rapportées.
2009
pdf
bib
abs
EXCOM : Plate-forme d’annotation sémantique de textes multilingues
Motasem Alrahabi
|
Jean-Pierre Desclés
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations
Nous proposons une plateforme d‟annotation sémantique, appelée « EXCOM ». Basée sur la méthode de l‟ « Exploration Contextuelle », elle permet, à travers une diversité de langues, de procéder à des annotations automatiques de segments textuels par l’analyse des formes de surface dans leur contexte. Les textes sont traités selon des « points de vue » discursifs dont les valeurs sont organisées dans une « carte sémantique ». L‟annotation se base sur un ensemble de règles linguistiques, écrites par un analyste, qui permettent d‟identifier les représentations textuelles sous-jacentes aux différentes catégories de la carte. Le système offre, à travers deux types d‟interfaces (développeur ou utilisateur), une chaîne de traitements automatiques de textes qui comprend la segmentation, l‟annotation et d‟autres fonctionnalités de post-traitement. Les documents annotés peuvent être utilisés, par exemple, pour des systèmes de recherche d‟information, de veille, de classification ou de résumé automatique.