Achille Falaise


2015

pdf bib
Traitements pour l’analyse du français préclassique
Sascha Diwersy | Achille Falaise | Marie-Hélène Lay | Gilles Souvay
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

La période préclassique du français s’étend sur tout le XVIe siècle et la première moitié du XVIIe siècle. Cet état de langue écrite, qui accompagne les débuts de l’imprimerie, est relativement proche du français moderne, mais se caractérise par une grande variabilité graphique. Il s’agit de l’un des moins bien dotés en termes de ressources. Nous présentons ici la construction d’un lexique, d’un corpus d’apprentissage et d’un modèle de langage pour la période préclassique, à partir de ressources du français moderne.

pdf bib
Intégration du corpus des actes de TALN à la plateforme ScienQuest
Achille Falaise
Actes de la 22e conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

Cette démonstration présente l’intégration du corpus arboré des Actes de TALN à la plateforme ScienQuest. Cette plateforme fut initialement créée pour l’étude du corpus de textes scientifiques Scientext. Cette intégration tient compte des métadonnées propres au corpus TALN, et a été effectuée en s’efforçant de rapprocher les jeux d’étiquettes de ces deux corpus, et en convertissant pour le corpus TALN les requêtes prédéfinies conçues pour le corpus Scientext, de manière à permettre d’effectuer facilement des recherches similaires sur les deux corpus.

2013

pdf bib
NLP and corpus techniques for finding formulations that facilitate scientific writing in English (Techniques de TAL et corpus pour faciliter les formulations en anglais scientifique écrit) [in French]
Marie-Paule Jacques | Laura Hartwell | Achille Falaise
Proceedings of TALN 2013 (Volume 1: Long Papers)

pdf bib
Adaptation of the corpus platform ScienQuest for assistance to writing in a second language (Adaptation de la plateforme corporale ScienQuest pour l’aide à la rédaction en langue seconde) [in French]
Achille Falaise
Proceedings of TALN 2013 (Volume 3: System Demonstrations)

2012

pdf bib
ScienQuest: a Treebank Exploitation Tool for non NLP-Specialists
Achille Falaise | Olivier Kraif | Agnès Tutin | David Rouquet
Proceedings of COLING 2012: Demonstration Papers

2011

pdf bib
Exploitation d’un corpus arboré pour non spécialistes par des requêtes guidées et des requêtes sémantiques (Exploiting a Treebank for non-specialists by guided queries and semantic queries)
Achille Falaise | Agnès Tutin | Olivier Kraif
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

L’exploitation de corpus analysés syntaxiquement (ou corpus arborés) pour le public non spécialiste n’est pas un problème trivial. Si la communauté du TAL souhaite mettre à la disposition des chercheurs non-informaticiens des corpus comportant des annotations linguistiques complexes, elle doit impérativement développer des interfaces simples à manipuler mais permettant des recherches fines. Dans cette communication, nous présentons les modes de recherche « grand public » développé(e)s dans le cadre du projet Scientext, qui met à disposition un corpus d’écrits scientifiques interrogeable par partie textuelle, par partie du discours et par fonction syntaxique. Les modes simples sont décrits : un mode libre et guidé, où l’utilisateur sélectionne lui-même les éléments de la requête, et un mode sémantique, qui comporte des grammaires locales préétablies à l’aide des fonctions syntaxiques.

pdf bib
Définition et conception d’une interface pour l’exploitation de corpus arborés pour non-informaticiens : la plateforme ScienQuest du projet Scientext [Definition and design of an interface for treebanks exploitation by non-computer scientists: the ScienQuest platform from Scientext project]
Achille Falaise | Agnès Tutin | Olivier Kraif
Traitement Automatique des Langues, Volume 52, Numéro 3 : Ressources linguistiques libres [Free Language Resources]

pdf bib
Operationalization of interactive multilingual gateways (iMAGs) in the Traouiero project
Christian Boitet | Valérie Bellynck | Achille Falaise | Nguyen Hong-Thai
Proceedings of Translating and the Computer 33

2010

pdf bib
Ontology driven content extraction using interlingual annotation of texts in the OMNIA project
Achille Falaise | David Rouquet | Didier Schwab | Hervé Blanchon | Christian Boitet
Proceedings of the 4th Workshop on Cross Lingual Information Access

2009

pdf bib
CIFLI-SurviTra, deux facettes : démonstrateur de composants de TA fondée sur UNL, et phrasebook multilingue
Georges Fafiotte | Achille Falaise | Jérôme Goulian
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Démonstrations

CIFLI-SurviTra (“Survival Translation” assistant) est une plate-forme destinée à favoriser l’ingénierie et la mise au point de composants UNL de TA, à partir d’une mémoire de traduction formée de livres de phrases multilingues avec variables lexicales. SurviTra est aussi un phrasebook digital multilingue, assistant linguistique pour voyageurs monolingues (français, hindi, tamoul, anglais) en situation de “survie linguistique”. Le corpus d’un domaine-pilote (“Restaurant”) a été structuré et construit : sous-domaines de phrases alignées et classes lexicales de locutions quadrilingues, graphes UNL, dictionnaires UW++/français et UW++/hindi par domaines. L’approche, générique, est applicable à d’autres langues. Le prototype d’assistant linguistique (application Web, à interface textuelle) peut évoluer vers une application UNL embarquée sur SmartPhone, avec Traitement de Parole et multimodalité.

2005

pdf bib
Constitution d’un corpus de français tchaté
Achille Falaise
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

Nous présentons dans cet article un corpus de français tchaté, destiné à l’étude de la langue du tchat. Ce corpus, collecté et encodé automatiquement, est remarquable avant tout par son étendue, puisqu’il couvre un total de 4 millions de messages sur 105 canaux, hétérogènes sur les plans thématique et pragmatique. Son codage simple ne sera toutefois pas satisfaisant pour tous les usages. Il est disponible sur un site Internet, et consultable grâce à une interface web.