2023
pdf
bib
abs
Questionner pour expliquer: construction de liens explicites entre documents par la génération automatique de questions
Elie Antoine
|
Hyun Jung Kang
|
Ismaël Rousseau
|
Ghislaine Azémard
|
Frédéric Béchet
|
Géraldine Damnati
Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 4 : articles déjà soumis ou acceptés en conférence internationale
Cette article présente une méthode d’exploration de documents basée sur la création d’un ensemble synthétique de questions et de réponses portant sur le corpus, ensemble qui est ensuite utilisé pour établir des liens explicables entre les documents. Nous menons une évaluation quantitative et qualitative des questions automatiquement générées en termes de leur forme et de leur pertinence pour l’exploration de la collection. De plus, nous présentons une étude quantitative des liens obtenus grâce à notre méthode sur une collection de document provenant d’archives numérisés.
pdf
bib
abs
Exploring Social Sciences Archives with Explainable Document Linkage through Question Generation
Elie Antoine
|
Hyun Jung Kang
|
Ismaël Rousseau
|
Ghislaine Azémard
|
Frederic Bechet
|
Geraldine Damnati
Proceedings of the 7th Joint SIGHUM Workshop on Computational Linguistics for Cultural Heritage, Social Sciences, Humanities and Literature
This paper proposes a new approach for exploring digitized humanities and social sciences collections based on explainable links built from questions. Our experiments show the quality of our automatically generated questions and their relevance in a local context as well as the originality of the links produced by embeddings based on these questions. Analyses have also been performed to understand the types of questions generated on our corpus, and the related uses that can enrich the exploration. The relationships between the co-references and the questions generated, and the answers extracted from the text were also discussed and open a path for future improvements for our system in their resolution.
2021
pdf
bib
abs
Une étude des avis en ligne : généralisabilité d’un modèle d’évaluation (A Study of Online Reviews : Generalizability of the Evaluation Model)
Hyun Jung Kang
|
Iris Eshkol-Taravella
Actes de la 28e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Ce travail se situe dans la continuité de nos travaux antérieurs proposant le modèle d’évaluation portant sur des avis en ligne sur des restaurants. Le modèle est composé de quatre catégories : l’opinion (positive, négative, mixte), la suggestion, l’intention et la description. Cet article vise à tester la généralisabilité du modèle en l’appliquant sur deux corpus supplémentaires : un corpus relevant d’un autre domaine (celui de l’hôtellerie) et un corpus écrit dans une autre langue (le coréen). Nous avons présenté l’annotation manuelle et la détection automatique de ces catégories en nous appuyant sur différents modèles de l’apprentissage de surface (SVM) et l’apprentissage profond (LSTM).
2020
pdf
bib
abs
Les avis sur les restaurants à l’épreuve de l’apprentissage automatique (An Empirical Examination of Online Restaurant Reviews)
Hyun Jung Kang
|
Iris Eshkol-Taravella
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles
Dans la fouille d’opinions, de nombreuses études portent sur l’extraction automatique des opinions positives ou négatives. Cependant les recherches ayant pour objet la fouille de suggestions et d’intentions sont moins importantes, malgré leur lien profond avec l’opinion. Cet article vise à détecter six catégories (opinion positive/mixte/négative, suggestion, intention, description) dans les avis en ligne sur les restaurants en exploitant deux méthodes : l’apprentissage de surface et l’apprentissage profond supervisés. Les performances obtenues pour chaque catégorie sont interprétées ensuite en tenant compte des spécificités du corpus traité.
pdf
bib
abs
An Empirical Examination of Online Restaurant Reviews
Hyun Jung Kang
|
Iris Eshkol-Taravella
Proceedings of the Twelfth Language Resources and Evaluation Conference
In the wake of (Pang et al., 2002; Turney, 2002; Liu, 2012) inter alia, opinion mining and sentiment analysis have focused on extracting either positive or negative opinions from texts and determining the targets of these opinions. In this study, we go beyond the coarse-grained positive vs. negative opposition and propose a corpus-based scheme that detects evaluative language at a finer-grained level. We classify each sentence into one of four evaluation types based on the proposed scheme: (1) the reviewer’s opinion on the restaurant (positive, negative, or mixed); (2) the reviewer’s input/feedback to potential customers and restaurant owners (suggestion, advice, or warning) (3) whether the reviewer wants to return to the restaurant (intention); (4) the factual statement about the experience (description). We apply classical machine learning and deep learning methods to show the effectiveness of our scheme. We also interpret the performances that we obtained for each category by taking into account the specificities of the corpus treated.
2019
pdf
bib
abs
Observation de l’expérience client dans les restaurants (Mapping Reviewers’ Experience in Restaurants)
Iris Eshkol-Taravella
|
Hyun Jung Kang
Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume II : Articles courts
Ces dernières années, les recherches sur la fouille d’opinions ou l’analyse des sentiments sont menées activement dans le domaine du Traitement Automatique des Langues (TAL). De nombreuses études scientifiques portent sur l’extraction automatique des opinions positives ou négatives et de leurs cibles. Ce travail propose d’identifier automatiquement une évaluation, exprimée explicitement ou implicitement par des internautes dans le corpus d’avis tiré du Web. Six catégories d’évaluation sont proposées : opinion positive, opinion négative, opinion mixte, intention, suggestion et description. La méthode utilisée est fondée sur l’apprentissage supervisé qui tient compte des caractéristiques linguistiques de chaque catégorie retenue. L’une des difficultés que nous avons rencontrée concerne le déséquilibre entre les classes d’évaluation créées, cependant, cet obstacle a pu être surmonté dans l’apprentissage grâce aux stratégies de sur-échantillonnage et aux stratégies algorithmiques.