2020
pdf
bib
abs
FrSemCor: Annotating a French Corpus with Supersenses
Lucie Barque
|
Pauline Haas
|
Richard Huyghe
|
Delphine Tribout
|
Marie Candito
|
Benoit Crabbé
|
Vincent Segonne
Proceedings of the Twelfth Language Resources and Evaluation Conference
French, as many languages, lacks semantically annotated corpus data. Our aim is to provide the linguistic and NLP research communities with a gold standard sense-annotated corpus of French, using WordNet Unique Beginners as semantic tags, thus allowing for interoperability. In this paper, we report on the first phase of the project, which focused on the annotation of common nouns. The resulting dataset consists of more than 12,000 French noun occurrences which were annotated in double blind and adjudicated according to a carefully redefined set of supersenses. The resource is released online under a Creative Commons Licence.
2019
pdf
bib
abs
Demonette2 - Une base de données dérivationnelle du français à grande échelle : premiers résultats (Demonette2 – A large scale derivational database for French: first results)
Fiammetta Namer
|
Lucie Barque
|
Olivier Bonami
|
Pauline Haas
|
Nabil Hathout
|
Delphine Tribout
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts
Cet article présente la conception et le développement de Demonette2, une base de données dérivationnelle à grande échelle du français, développée dans le cadre du projet ANR Démonext (ANR-17-CE23-0005). L’article décrit les objectifs du projet, la structure de la base et expose les premiers résultats du projet, en mettant l’accent sur un enjeu crucial : la question du codage sémantique des entrées et des relations.
2014
pdf
bib
Theoretical and Computational Morphology: New Trends and Synergies
Bruno Cartoni
|
Delphine Bernhard
|
Delphine Tribout
Linguistic Issues in Language Technology, Volume 11, 2014 - Theoretical and Computational Morphology: New Trends and Synergies
2011
pdf
bib
abs
Évaluer la pertinence de la morphologie constructionnelle dans les systèmes de Question-Réponse (Evaluating the relevance of constructional morphology in question-answering systems)
Delphine Bernhard
|
Bruno Cartoni
|
Delphine Tribout
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Les connaissances morphologiques sont fréquemment utilisées en Question-Réponse afin de faciliter l’appariement entre mots de la question et mots du passage contenant la réponse. Il n’existe toutefois pas d’étude qualitative et quantitative sur les phénomènes morphologiques les plus pertinents pour ce cadre applicatif. Dans cet article, nous présentons une analyse détaillée des phénomènes de morphologie constructionnelle permettant de faire le lien entre question et réponse. Pour ce faire, nous avons constitué et annoté un corpus de paires de questions-réponses, qui nous a permis de construire une ressource de référence, utile pour l’évaluation de la couverture de ressources et d’outils d’analyse morphologique. Nous détaillons en particulier les phénomènes de dérivation et de composition et montrons qu’il reste un nombre important de relations morphologiques dérivationnelles pour lesquelles il n’existe pas encore de ressource exploitable pour le français.
2006
pdf
bib
abs
Productivité quantitative des suffixations par -ité et -Able dans un corpus journalistique moderne
Natalia Grabar
|
Delphine Tribout
|
Georgette Dal
|
Bernard Fradin
|
Nabil Hathout
|
Stéphanie Lignon
|
Fiammetta Namer
|
Clément Plancq
|
François Yvon
|
Pierre Zweigenbaum
Actes de la 13ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans ce travail, nous étudions en corpus la productivité quantitative des suffixations par -Able et par -ité du français, d’abord indépendamment l’une de l’autre, puis lorsqu’elles s’enchaînent dérivationnellement (la suffixation en -ité s’applique à des bases en -Able dans environ 15 % des cas). Nous estimons la productivité de ces suffixations au moyen de mesures statistiques dont nous suivons l’évolution par rapport à la taille du corpus. Ces deux suffixations sont productives en français moderne : elles forment de nouveaux lexèmes tout au long des corpus étudiés sans qu’on n’observe de saturation, leurs indices de productivité montrent une évolution stable bien qu’étant dépendante des calculs qui leur sont appliqués. On note cependant que, de façon générale, de ces deux suffixations, c’est la suffixation par -ité qui est la plus fréquente en corpus journalistique, sauf précisément quand -ité s’applique à un adjectif en -Able. Étant entendu qu’un adjectif en -Able et le nom en -ité correspondant expriment la même propriété, ce résultat indique que la complexité de la base est un paramètre à prendre en considération dans la formation du lexique possible.
2005
pdf
bib
abs
Détection automatique d’actes de dialogue par l’utilisation d’indices multiniveaux
Sophie Rosset
|
Delphine Tribout
Actes de la 12ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Ces dernières années, il y a eu de nombreux travaux portant sur l’utilisation d’actes de dialogue pour caractériser les dialogues homme-homme ou homme-machine. Cet article fait état de nos travaux sur la détection automatique d’actes de dialogue dans des corpus réels de dialogue homme-homme. Notre travail est fondé essentiellement sur deux hypothèses . (i) la position des mots et la classe sémantique du mot sont plus importants que les mots eux-mêmes pour identifier l’acte de dialogue et (ii) il y a une forte prédictivité dans la succession des actes de dialogues portés sur un même segment dialogique. Une approche de type Memory Based Learning a été utilisée pour la détection automatique des actes de dialogue. Le premier modèle n’utilise pas d’autres informations que celles contenus dans le tour de parole. Dans lex expériences suivantes, des historiques dialogiques de taille variables sont utilisés. Le taux d’erreur de détection d’actes de dialogue est d’environ 16% avec le premier modèle est descend avec une utilisation plus large de l’historique du dialogue à environ 14%.