Laurianne Sitbon


2016

pdf bib
The Benefits of Word Embeddings Features for Active Learning in Clinical Information Extraction
Mahnoosh Kholghi | Lance De Vine | Laurianne Sitbon | Guido Zuccon | Anthony Nguyen
Proceedings of the Australasian Language Technology Association Workshop 2016

2015

pdf bib
Analysis of Word Embeddings and Sequence Features for Clinical Information Extraction
Lance De Vine | Mahnoosh Kholghi | Guido Zuccon | Laurianne Sitbon | Anthony Nguyen
Proceedings of the Australasian Language Technology Association Workshop 2015

pdf bib
Overview of the 2015 ALTA Shared Task: Identifying French Cognates in English Text
Laurianne Sitbon | Diego Molla | Haoxing Wang
Proceedings of the Australasian Language Technology Association Workshop 2015

2014

pdf bib
Multilingual lexical resources to detect cognates in non-aligned texts
Haoxing Wang | Laurianne Sitbon
Proceedings of the Australasian Language Technology Association Workshop 2014

pdf bib
Predicting sense convergence with distributional semantics: an application to the CogaLex 2014 shared task
Laurianne Sitbon | Lance De Vine
Proceedings of the 4th Workshop on Cognitive Aspects of the Lexicon (CogALex)

2011

pdf bib
Modelling Word Meaning using Efficient Tensor Representations
Mike Symonds | Peter Bruza | Laurianne Sitbon | Ian Turner
Proceedings of the 25th Pacific Asia Conference on Language, Information and Computation

2008

pdf bib
Evaluation of Lexical Resources and Semantic Networks on a Corpus of Mental Associations
Laurianne Sitbon | Patrice Bellot | Philippe Blache
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

When a user cannot find a word, he may think of semantically related words that could be used into an automatic process to help him. This paper presents an evaluation of lexical resources and semantic networks for modelling mental associations. A corpus of associations has been constructed for its evaluation. It is composed of 20 low frequency target words each associated 5 times by 20 users. In the experiments we look for the target word in propositions made from the associated words thanks to 5 different resources. The results show that even if each resource has a useful specificity, the global recall is low. An experiment to extract common semantic features of several associations showed that we cannot expect to see the target word below a rank of 20 propositions.

pdf bib
Evaluating Robustness Of A QA System Through A Corpus Of Real-Life Questions
Laurianne Sitbon | Patrice Bellot | Philippe Blache
Proceedings of the Sixth International Conference on Language Resources and Evaluation (LREC'08)

This paper presents the sequential evaluation of the question answering system SQuaLIA. This system is based on the same sequential process as most statistical question answering systems, involving 4 main steps from question analysis to answer extraction. The evaluation is based on a corpus made from 20 questions taken in the set of an evaluation campaign and which were well answered by SQuaLIA. Each of the 20 questions has been typed by 17 native participants, non natives and dyslexics. They were vocally instructed the target of each question. Each of the 4 analysis steps of the system involves a loss of accuracy, until an average of 60 of right answers at the end of the process. The main cause of this loss seems to be the orthographic mistakes users make on nouns.

2007

pdf bib
Traitements phrastiques phonétiques pour la réécriture de phrases dysorthographiées
Laurianne Sitbon | Patrice Bellot | Philippe Blache
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Posters

Cet article décrit une méthode qui combine des hypothèses graphémiques et phonétiques au niveau de la phrase, à l’aide d’une réprésentation en automates à états finis et d’un modèle de langage, pour la réécriture de phrases tapées au clavier par des dysorthographiques. La particularité des écrits dysorthographiés qui empêche les correcteurs orthographiques d’être efficaces pour cette tâche est une segmentation en mots parfois incorrecte. La réécriture diffère de la correction en ce sens que les phrases réécrites ne sont pas à destination de l’utilisateur mais d’un système automatique, tel qu’un moteur de recherche. De ce fait l’évaluation est conduite sur des versions filtrées et lemmatisées des phrases. Le taux d’erreurs mots moyen passe de 51 % à 20 % avec notre méthode, et est de 0 % sur 43 % des phrases testées.

pdf bib
Combinaison de ressources linguistiques pour l’aide à l’accès lexical : étude de faisabilité
Laurianne Sitbon
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

Cet article propose une évaluation combinée et comparative de 5 ressources (descriptive, paradigmatique et syntagmatiques) pour l’aide à l’accès lexical en situation de “mot sur le bout de la langue”, en vue de la création d’un outil utilisant la combinaison de ces ressources. En situation de “mot sur le bout de la langue”, l’utilisateur n’accède plus au mot qu’il veut dire ou écrire mais est capable d’en produire d’autres sémantiquement associés. L’évaluation se base sur un corpus de 20 mots “sur le bout de la langue” pour lesquels on dispose de 50 groupes de 5 associations sémantiques effectuées par des utilisateurs. Les résultats montrent que les ressources sont complémentaires et peu redondantes. De plus au moins une association proposée parmi les 5 permettrait de retrouver le mot “sur le bout de la langue” dans 79% des cas, à condition de le sélectionner parmi les 2500 mot potentiels. Enfin, les résultats montrent des disparités entre les utilisateurs, ce qui permettrait de définir des profils d’utilisateur pour une amélioration des performances.

2006

pdf bib
Tools and methods for objective or contextual evaluation of topic segmentation
Laurianne Sitbon | Patrice Bellot
Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC’06)

In this paper we discuss the way of evaluating topic segmentation, from mathematical measures on variously constructed reference corpus to contextual evaluation depending on different topic segmentation usages. We present an overview of the different ways of building reference corpora and of mathematically evaluating segmentation methods, and then we focus on three tasks which may involve a topic segmentation: text extraction, information retrieval and document presentation. We have developed two graphical interfaces, one for an intrinsic comparison, and the other one dedicated to an evaluation in an information retrieval context. These tools will be very soon distributed under GPL licences on the Technolangue project web page.

pdf bib
Vers une prédiction automatique de la difficulté d’une question en langue naturelle
Laurianne Sitbon | Jens Grivolla | Laurent Gillard | Patrice Bellot | Philippe Blache
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous proposons et testons deux méthodes de prédiction de la capacité d’un système à répondre à une question factuelle. Une telle prédiciton permet de déterminer si l’on doit initier un dialogue afin de préciser ou de reformuler la question posée par l’utilisateur. La première approche que nous proposons est une adaptation d’une méthode de prédiction dans le domaine de la recherche documentaire, basée soit sur des machines à vecteurs supports (SVM) soit sur des arbres de décision, avec des critères tels que le contenu des questions ou des documents, et des mesures de cohésion entre les documents ou passages de documents d’où sont extraits les réponses. L’autre approche vise à utiliser le type de réponse attendue pour décider de la capacité du système à répondre. Les deux approches ont été testées sur les données de la campagne Technolangue EQUER des systèmes de questions-réponses en français. L’approche à base de SVM est celle qui obtient les meilleurs résultats. Elle permet de distinguer au mieux les questions faciles, celles auxquelles notre système apporte une bonne réponse, des questions difficiles, celles restées sans réponses ou auxquelles le système a répondu de manière incorrecte. A l’opposé on montre que pour notre système, le type de réponse attendue (personnes, quantités, lieux...) n’est pas un facteur déterminant pour la difficulté d’une question.

2005

pdf bib
Segmentation thématique par chaînes lexicales pondérées
Laurianne Sitbon | Patrice Bellot
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts

Cet article propose une méthode innovante et efficace pour segmenter un texte en parties thématiquement cohérentes, en utilisant des chaînes lexicales pondérées. Les chaînes lexicales sont construites en fonction de hiatus variables, ou bien sans hiatus, ou encore pondérées en fonction de la densité des occurrences du terme dans la chaîne. D’autre part, nous avons constaté que la prise en compte du repérage d’entités nommées dans la chaîne de traitement, du moins sans résolution des anaphores, n’améliore pas significativement les performances. Enfin, la qualité de la segmentation proposée est stable sur différentes thématiques, ce qui montre une indépendance par rapport au type de document.

2004

pdf bib
Evaluation de méthodes de segmentation thématique linéaire non supervisées après adaptation au français
Laurianne Sitbon | Patrice Bellot
Actes de la 11ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs

Nous proposons une évaluation de différentes méthodes et outils de segmentation thématique de textes. Nous présentons les outils de segmentation linéaire et non supervisée DotPlotting, Segmenter, C99, TextTiling, ainsi qu’une manière de les adapter et de les tester sur des documents français. Les résultats des tests montrent des différences en performance notables selon les sujets abordés dans les documents, et selon que le nombre de segments à trouver est fixé au préalable par l’utilisateur. Ces travaux font partie du projet Technolangue AGILE-OURAL.