Christophe Benzitoun


2022

Pro-TEXT is a corpus of keystroke logs written in French. Keystroke logs are recordings of the writing process executed through a keyboard, which keep track of all actions taken by the writer (character additions, deletions, substitutions). As such, the Pro-TEXT corpus offers new insights into text genesis and underlying cognitive processes from the production perspective. A subset of the corpus is linguistically annotated with parts of speech, lemmas and syntactic dependencies, making it suitable for the study of interactions between linguistic and behavioural aspects of the writing process. The full corpus contains 202K tokens, while the annotated portion is currently 30K tokens large. The annotated content is progressively being made available in a database-like CSV format and in CoNLL format, and the work on an HTML-based visualisation tool is currently under way. To the best of our knowledge, Pro-TEXT is the first corpus of its kind in French.

2020

2018

2012

2005

De nombreux linguistes ont mis en évidence des cas de « subordonnées » non dépendantes dans de multiples langues dans le monde (Mithun, 2003 ; Haiman & Thompson (eds), 1988). Ce phénomène a aussi été relevé en français, notamment pour un « subordonnant » tel que parce que (Debaisieux, 2001 ; Ducrot et al., 1975). Nous nous proposons de décrire un cas de « subordonnée » en quand non dépendante et de le représenter dans le cadre formel de Gerdes & Kahane (à paraître).

2004

Dans cet article, nous présentons une typologie des phénomènes qui posent problème pour l’annotation syntaxique de corpus oraux. Nous montrons également que ces phénomènes, même s’ils y sont d’une fréquence moindre, sont loin d’être absents à l’écrit (ils peuvent même être tout à fait significatifs dans certains corpus : e-mails, chats, SMS...), et que leur prise en compte peut améliorer l’annotation et fournir un cadre intégré pour l’oral et l’écrit.

2003

Nous présentons dans cet article une réflexion en vue de la modélisation d’une partie du patrimoine descriptif du français finalement peu utilisé en TALN. Pour ce faire, nous utilisons le concept de langage “pivot” qui permet d’articuler la description et la présentation formalisée.