Romain Brixtel
2015
Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales
Romain Brixtel | Charlotte Lecluze | Gaël Lejeune
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Romain Brixtel | Charlotte Lecluze | Gaël Lejeune
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes. A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée. Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères. Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du nème ordre (c’est-à-dire des répétitions maximales détectées dans un ensemble de répétitions maximales). Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.
Évaluation intrinsèque et extrinsèque du nettoyage de pages Web
Gaël Lejeune | Romain Brixtel | Charlotte Lecluze
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Gaël Lejeune | Romain Brixtel | Charlotte Lecluze
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Le nettoyage de documents issus du web est une tâche importante pour le TAL en général et pour la constitution de corpus en particulier. Cette phase est peu traitée dans la littérature, pourtant elle n’est pas sans influence sur la qualité des informations extraites des corpus. Nous proposons deux types d’évaluation de cette tâche de détourage : (I) une évaluation intrinsèque fondée sur le contenu en mots, balises et caractères ; (II) une évaluation extrinsèque fondée sur la tâche, en examinant l’effet du détourage des documents sur le système placé en aval de la chaîne de traitement. Nous montrons que les résultats ne sont pas cohérents entre ces deux évaluations ainsi qu’entre les différentes langues. Ainsi, le choix d’un outil de détourage devrait être guidé par la tâche visée plutôt que par la simple évaluation intrinsèque.
Maximal Repeats Enhance Substring-based Authorship Attribution
Romain Brixtel
Proceedings of the International Conference Recent Advances in Natural Language Processing
Romain Brixtel
Proceedings of the International Conference Recent Advances in Natural Language Processing
2013
Parallel areas detection in multi-documents for multilingual alignment (Détection de zones parallèles à l’intérieur de multi-documents pour l’alignement multilingue) [in French]
Charlotte Lecluze | Romain Brixtel | Loïs Rigouste | Emmanuel Giguet | Régis Clouard | Gaël Lejeune | Patrick Constant
Proceedings of TALN 2013 (Volume 1: Long Papers)
Charlotte Lecluze | Romain Brixtel | Loïs Rigouste | Emmanuel Giguet | Régis Clouard | Gaël Lejeune | Patrick Constant
Proceedings of TALN 2013 (Volume 1: Long Papers)
DAnIEL, parsimonious yet high-coverage multilingual epidemic surveillance (DAnIEL : Veille épidémiologique multilingue parcimonieuse) [in French]
Gaël Lejeune | Romain Brixtel | Charlotte Lecluze | Antoine Doucet | Nadine Lucas
Proceedings of TALN 2013 (Volume 3: System Demonstrations)
Gaël Lejeune | Romain Brixtel | Charlotte Lecluze | Antoine Doucet | Nadine Lucas
Proceedings of TALN 2013 (Volume 3: System Demonstrations)
2012
Détection de mots-clés par approches au grain caractère et au grain mot (Keywords extraction by repeated string analysis) [in French]
Gaëlle Doualan | Mathieu Boucher | Romain Brixtel | Gaël Lejeune | Gaël Dias
JEP-TALN-RECITAL 2012, Workshop DEFT 2012: DÉfi Fouille de Textes (DEFT 2012 Workshop: Text Mining Challenge)
Gaëlle Doualan | Mathieu Boucher | Romain Brixtel | Gaël Lejeune | Gaël Dias
JEP-TALN-RECITAL 2012, Workshop DEFT 2012: DÉfi Fouille de Textes (DEFT 2012 Workshop: Text Mining Challenge)
2007
Extraction endogène d’une structure de document pour un alignement multilingue
Romain Brixtel
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
Romain Brixtel
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues (Posters)
Pour des raisons variées, diverses communautés se sont intéressées aux corpus multilingues. Parmi ces corpus, les textes parallèles sont utilisés aussi bien en terminologie, lexicographie ou comme source d’informations pour les systèmes de traduction par l’exemple. L’Union Européenne, qui a entraîné la production de document législatif dans vingtaine de langues, est une des sources de ces textes parallèles. Aussi, avec le Web comme vecteur principal de diffusion de ces textes parallèles, cet objet d’étude est passé à un nouveau statut : celui de document. Cet article décrit un système d’alignement prenant en compte un grand nombre de langues simultanément (> 2) et les caractéristiques structurelles des documents analysés.