Mathieu-Henri Falco


2014

pdf bib
User evaluation of a multiple answer extraction system on the Web (Évaluation d’un système d’extraction de réponses multiples sur le Web par comparaison à des humains) [in French]
Mathieu-Henri Falco | Véronique Moriceau | Anne Vilnat
Proceedings of TALN 2014 (Volume 2: Short Papers)

2012

pdf bib
Typologie des questions à réponses multiples pour un système de question-réponse (Typology of Multiple Answer Questions for a Question-answering System) [in French]
Mathieu-Henri Falco
Proceedings of the Joint Conference JEP-TALN-RECITAL 2012, volume 3: RECITAL

pdf bib
Kitten: a tool for normalizing HTML and extracting its textual content
Mathieu-Henri Falco | Véronique Moriceau | Anne Vilnat
Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC'12)

The web is composed of a gigantic amount of documents that can be very useful for information extraction systems. Most of them are written in HTML and have to be rendered by an HTML engine in order to display the data they contain on a screen. HTML file thus mix both informational and rendering content. Our goal is to design a tool for informational content extraction. A linear extraction with only a basic filtering of rendering content would not be enough as objects such as lists and tables are linearly coded but need to be read in a non-linear way to be well interpreted. Besides these HTML pages are often incorrectly coded from an HTML point of view and use a segmentation of blocks based on blank space that cannot be transposed in a text filewithout confusing syntactic parsers. For this purpose, we propose the Kitten tool that first normalizes HTML file into unicode XHTML file, then extracts the informational content into a text filewith a special processing for sentences, lists and tables.

2011

pdf bib
Sélection de réponses à des questions dans un corpus Web par validation (Selection of answers to questions in a web corpus by validation)
Arnaud Grappy | Brigitte Grau | Mathieu-Henri Falco | Anne-Laure Ligozat | Isabelle Robba | Anne Vilnat
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Les systèmes de questions réponses recherchent la réponse à une question posée en langue naturelle dans un ensemble de documents. Les collectionsWeb diffèrent des articles de journaux de par leurs structures et leur style. Pour tenir compte de ces spécificités nous avons développé un système fondé sur une approche robuste de validation où des réponses candidates sont extraites à partir de courts passages textuels puis ordonnées par apprentissage. Les résultats montrent une amélioration du MRR (Mean Reciprocal Rank) de 48% par rapport à la baseline.