Charlotte Lecluze


2015

pdf bib
Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales
Romain Brixtel | Charlotte Lecluze | Gaël Lejeune
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes. A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée. Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères. Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du nème ordre (c’est-à-dire des répétitions maximales détectées dans un ensemble de répétitions maximales). Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.

pdf bib
Évaluation intrinsèque et extrinsèque du nettoyage de pages Web
Gaël Lejeune | Romain Brixtel | Charlotte Lecluze
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Le nettoyage de documents issus du web est une tâche importante pour le TAL en général et pour la constitution de corpus en particulier. Cette phase est peu traitée dans la littérature, pourtant elle n’est pas sans influence sur la qualité des informations extraites des corpus. Nous proposons deux types d’évaluation de cette tâche de détourage : (I) une évaluation intrinsèque fondée sur le contenu en mots, balises et caractères ; (II) une évaluation extrinsèque fondée sur la tâche, en examinant l’effet du détourage des documents sur le système placé en aval de la chaîne de traitement. Nous montrons que les résultats ne sont pas cohérents entre ces deux évaluations ainsi qu’entre les différentes langues. Ainsi, le choix d’un outil de détourage devrait être guidé par la tâche visée plutôt que par la simple évaluation intrinsèque.

2014

pdf bib
DEFT2014, automatic analysis of literary and scientific texts in French (DEFT 2014, analyse automatique de textes littéraires et scientifiques en langue française) [in French]
Charlotte Lecluze | Gaël Lejeune
TALN-RECITAL 2014 Workshop DEFT 2014 : DÉfi Fouille de Textes (DEFT 2014 Workshop: Text Mining Challenge)

2013

pdf bib
Parallel areas detection in multi-documents for multilingual alignment (Détection de zones parallèles à l’intérieur de multi-documents pour l’alignement multilingue) [in French]
Charlotte Lecluze | Romain Brixtel | Loïs Rigouste | Emmanuel Giguet | Régis Clouard | Gaël Lejeune | Patrick Constant
Proceedings of TALN 2013 (Volume 1: Long Papers)

pdf bib
DAnIEL, parsimonious yet high-coverage multilingual epidemic surveillance (DAnIEL : Veille épidémiologique multilingue parcimonieuse) [in French]
Gaël Lejeune | Romain Brixtel | Charlotte Lecluze | Antoine Doucet | Nadine Lucas
Proceedings of TALN 2013 (Volume 3: System Demonstrations)