Denis Maurel

2021

Corpus EN-Istex : un corpus d’articles scientifiques annoté manuellement en entités nommées (ISTEX-EN Corpus: a scientific paper corpus manually annotated in named entities)
Enza Morale | Denis Maurel | Jeanne Villaneau | Jean-Yves Antoine
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Démonstrations

Nous présentons ici une nouvelle ressource libre : le corpus EN-ISTEX, un corpus de deux cents articles scientifiques annotés manuellement en entités nommées. Ces articles ont été extraits des deux éditeurs scientifiques les plus importants de la plateforme ISTEX. Tous les domaines sont concernés, même si les sciences dites dures, en particulier les sciences du vivant et de la santé, sont prépondérantes. Parmi ceux-ci vingt articles ont été multi-annotés afin de vérifier l’adéquation du guide d’annotation et la fiabilité de l’annotation. L’accord inter annotateurs sur ces vingt textes s’élève à 91 %.

2018

pdf bib abs

Apprendre de la littérature scientifique : Les réseaux de signalisation en biologie systémique (Literature-based discovery: Signaling Systems in Systemic Biology)
Flavie Landomiel | Cathy Guérineau | Anubhav Gupta | Denis Maurel | Anne Poupon
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Cet article a pour but de montrer la faisabilité d’un système de fouille de texte pour alimenter un moteur d’inférences capable de construire, à partir de prédicats extraits des articles scientifiques, un réseau de signalisation en biologie systémique. Cette fouille se réalise en deux étapes : la recherche de phrases d’intérêt dans un grand corpus scientifique, puis la construction automatique de prédicats. Ces deux étapes utilisent un système de cascades de transducteurs.

2016

pdf bib abs

Estimer la notoriété d’un nom propre via Wikipedia (Estimate the notoriety of a Proper name using Wikipedia)
Mouna Elashter | Denis Maurel
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 2 : TALN (Posters)

Cet article propose de calculer, via Wikipedia, un indice de notoriété pour les entrées du dictionnaire relationnel multilingue de noms propres Prolexbase. Cet indice de notoriété dépend de la langue et participera, d’une part, à la construction d’un module de Prolexbase pour la langue arabe et, d’autre part, à la révision de la notoriété actuellement présente pour les autres langues de la base. Pour calculer la notoriété, nous utilisons la méthode SAW (précédée du calcul de l’entropie de Shannon) à partir de cinq valeurs numériques déduites de Wikipedia.

pdf bib abs

This paper reports a critical analysis of the ISO TimeML standard, in the light of several experiences of temporal annotation that were conducted on spoken French. It shows that the norm suffers from weaknesses that should be corrected to fit a larger variety of needs inNLP and in corpus linguistics. We present our proposition of some improvements of the norm before it will be revised by the ISO Committee in 2017. These modifications concern mainly (1) Enrichments of well identified features of the norm: temporal function of TIMEX time expressions, additional types for TLINK temporal relations; (2) Deeper modifications concerning the units or features annotated: clarification between time and tense for EVENT units, coherence of representation between temporal signals (the SIGNAL unit) and TIMEX modifiers (the MOD feature); (3) A recommendation to perform temporal annotation on top of a syntactic (rather than lexical) layer (temporal annotation on a treebank).

Denis Maurel

2021

2018

2016

2015

2014

2013

2011

2010

2008

2007

2006

2001

Co-authors

Venues