Fabien Poulard


2010

pdf bib
Un étiqueteur de rôles grammaticaux libre pour le français intégré à Apache UIMA
Charles Dejean | Manoel Fortun | Clotilde Massot | Vincent Pottier | Fabien Poulard | Matthieu Vernier
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

L’étiquetage des rôles grammaticaux est une tâche de pré-traitement récurrente. Pour le français, deux outils sont majoritairement utilisés : TreeTagger et Brill. Nous proposons une démarche, ne nécessitant aucune ressource, pour la création d’un modèle de Markov caché (HMM) pour palier les problèmes de ces outils, et de licences notamment. Nous distribuons librement toutes les ressources liées à ce travail.

2009

pdf bib
Nouvelles considérations pour la détection de réutilisation de texte
Fabien Poulard | Stergos Afantenos | Nicolas Hernandez
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans cet article nous nous intéressons au problème de la détection de réutilisation de texte. Plus particulièrement, étant donné un document original et un ensemble de documents candidats — thématiquement similaires au premier — nous cherchons à classer ceux qui sont dérivés du document original et ceux qui ne le sont pas. Nous abordons le problème selon deux approches : dans la première, nous nous intéressons aux similarités discursives entre les documents, dans la seconde au recouvrement de n-grams hapax. Nous présentons le résultat d’expérimentations menées sur un corpus de presse francophone construit dans le cadre du projet ANR PIITHIE.

pdf bib
Apache UIMA pour le Traitement Automatique des Langues
Nicolas Hernandez | Fabien Poulard | Stergos Afantenos | Matthieu Vernier | Jérôme Rocheteau
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

L’objectif de la démonstration est d’une part de faire un retour d’expérience sur la solution logicielle Apache UIMA comme infrastructure de développement d’applications distribuées de TAL, et d’autre part de présenter les développements réalisés par l’équipe TALN du LINA pour permettre à la communauté de s’approprier ce « framework ».

2008

pdf bib
Repérage de citations, classification des styles de discours rapporté et identification des constituants citationnels en écrits journalistiques
Fabien Poulard | Thierry Waszak | Nicolas Hernandez | Patrice Bellot
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Dans le contexte de la recherche de plagiat, le repérage de citations et de ses constituants est primordial puisqu’il peut amener à évaluer le caractère licite ou illicite d’une reprise (source citée ou non). Nous proposons ici une comparaison de méthodes automatiques pour le repérage de ces informations et rapportons une évaluation quantitative de celles-ci. Un corpus d’écrits journalistiques français a été manuellement annoté pour nous servir de base d’apprentissage et de test.

pdf bib
Analyse quantitative et qualitative de citations extraites d’un corpus journalistique
Fabien Poulard
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

Dans le contexte de la détection de plagiats, le repérage de citations et de ses constituants est primordial puisqu’il peut aider à évaluer le caractère licite ou illicite d’une reprise (source citée ou non). Nous proposons ici une étude quantitative et qualitative des citations extraites d’un corpus que nous avons auparavant construit. Cette étude a pour but de tracer des axes de recherche vers une méthode de repérage automatique des citations.