2012
pdf
bib
abs
Extraction of unmarked quotations in Newspapers
Stéphanie Weiser
|
Patrick Watrin
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)
This paper presents work in progress to automatically extract quotation sentences from newspaper articles. The focus is the extraction and annotation of unmarked quotation sentences. A linguistic study shows that unmarked quotation sentences can be formalised into 16 patterns that can be used to develop an extraction grammar. The question of unmarked quotation boundaries identification is also raised as they are often ambiguous. An annotation scheme allowing to describe all the elements that can take place in a quotation sentence is defined. This paper presents the creation of two resources necessary to our system. A dictionary of verbs introducing quotations has been automatically built using a grammar of marked quotations sentences to identify the verbs able to introduce quotations. A grammar formalising the patterns of unmarked quotation sentences ― using the tool Unitex, based on finite state machines ― has been developed. A short experiment has been performed on two patterns and shows some promising results.
2011
pdf
bib
Temporal Expressions Extraction in SMS messages
Stéphanie Weiser
|
Louis-Amélie Cougnon
|
Patrick Watrin
Proceedings of the RANLP 2011 Workshop on Information Extraction and Knowledge Acquisition
2009
pdf
bib
abs
Chaîne de traitement linguistique : du repérage d’expressions temporelles au peuplement d’une ontologie de tourisme
Stéphanie Weiser
|
Martin Coste
|
Florence Amardeilh
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Cet article présente la chaîne de traitement linguistique réalisée pour la mise en place d’une plateforme touristique sur Internet. Les premières étapes de cette chaîne sont le repérage et l’annotation des expressions temporelles présentes dans des pages Web. Ces deux tâches sont effectuées à l’aide de patrons linguistiques. Elles soulèvent de nombreux questionnements auxquels nous tentons de répondre, notamment au sujet de la définition des informations à extraire, du format d’annotation et des contraintes. L’étape suivante consiste en l’exploitation des données annotées pour le peuplement d’une ontologie du tourisme. Nous présentons les règles d’acquisition nécessaires pour alimenter la base de connaissance du projet. Enfin, nous exposons une évaluation du système d’annotation. Cette évaluation permet de juger aussi bien le repérage des expressions temporelles que leur annotation.
2008
pdf
bib
abs
Informations spatio-temporelles et objets touristiques dans des pages Web : repérage et annotation
Stéphanie Weiser
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
Cet article présente un projet de repérage, d’extraction et d’annotation d’informations temporelles, d’informations spatiales et d’objets touristiques dans des pages Web afin d’alimenter la base de connaissance d’un portail touristique. Nous portons une attention particulière aux différences qui distinguent le repérage d’information dans des pages Web du repérage d’informations dans des documents structurés. Après avoir introduit et classifié les différentes informations à extraire, nous nous intéressons à la façon de lier ces informations entre elles (par exemple apparier une information d’ouverture et un restaurant) et de les annoter. Nous présentons également le logiciel que nous avons réalisé afin d’effectuer cette opération d’annotation ainsi que les premiers résultats obtenus. Enfin, nous nous intéressons aux autres types de marques que l’on trouve dans les pages Web, les marques sémiotiques en particulier, dont l’analyse peut être utile à l’interprétation des pages.
pdf
bib
abs
Automatic Identification of Temporal Information in Tourism Web Pages
Stéphanie Weiser
|
Philippe Laublet
|
Jean-Luc Minel
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)
This paper presents our work on the detection of temporal information in web pages. The pages examined within the scope of this study were taken from the tourism sector and the temporal information in question is thus particular to this area. The differences that exist between extraction from plain textual data and extraction from the web are brought to light. These differences mainly concern the spatial arrangement of the text, the use of punctuation and the respect of traditional syntactic rules. The temporal expressions to be extracted are classified into two kinds: temporal information that concerns one particular event and repetitive temporal information. We adopt a symbolic approach relying on patterns and rules for the detection, extraction and annotation of temporal expressions; our method is based on the use of transducers. First evaluations have shown promising results. Since the visual structure of a web page is very important and often informs the user before he has even read the text, a semiotic study is also presented in this paper.