2024
pdf
bib
abs
Emotion Identification for French in Written Texts: Considering Modes of Emotion Expression as a Step Towards Text Complexity Analysis
Aline Étienne
|
Delphine Battistelli
|
Gwénolé Lecorvé
Proceedings of the 14th Workshop on Computational Approaches to Subjectivity, Sentiment, & Social Media Analysis
The objective of this paper is to predict (A) whether a sentence in a written text expresses an emotion, (B) the mode(s) in which the emotion is expressed, (C) whether it is basic or complex, and (D) its emotional category.One of our major contributions, in addition to a dataset and a model, is to integrate the fact that an emotion can be expressed in different modes: from a direct mode, essentially lexicalized, to a more indirect mode, where emotions will only be suggested, a mode that NLP approaches generally don’t take into account. The scope is on written texts, i.e. it does not focus on conversational or multi-modal data. In this context, modes of expression are seen as a factor towards the automatic analysis of complexity in texts.Experiments on French texts show acceptable results compared to the human annotators’ agreement to predict the mode and category, and outperforming results compared to using a large language model with in-context learning (i.e. no fine-tuning) on all tasks.Dataset and model can be downloaded on HuggingFace: https://huggingface.co/TextToKids .
pdf
bib
abs
Exploring the Emotional Dimension of French Online Toxic Content
Valentina Dragos
|
Delphine Battistelli
|
Fatou Sow
|
Aline Etienne
Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)
One of the biggest hurdles for the effective analysis of data collected on social platforms is the need for deeper insights on the content and meaning of this data. Emotion annotation can bring new perspectives on this issue and can enable the identification of content–specific features. This study aims at investigating the ways in which variation in online content can be explored through emotion annotation and corpus-based analysis. The paper describes the emotion annotation of three data sets in French composed of extremist, sexist and hateful messages respectively. To this end, first a fine-grained, corpus annotation scheme was used to annotate the data sets and then several empirical studies were carried out to characterize the content in the light of emotional categories. Results suggest that emotion annotations can provide new insights for online content analysis and stronger empirical background for automatic content detection.
pdf
bib
abs
Repérage et caractérisation automatique des émotions dans des textes : traiter aussi leurs modes d’expression indirects
Aline Etienne
|
Delphine Battistelli
|
Gwénolé Lecorvé
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Cet article présente un modèle capable de prédire (A) si une phrase contient l’expression d’une émotion, (B) selon quel(s) mode(s) cette émotion est exprimée, (C) si elle est basique ou complexe, et (D) quelle est sa catégorie exacte. Notre principale contribution est d’intégrer le fait qu’une émotion puisse s’exprimer selon différents modes : depuis un mode direct, essentiellement lexicalisé, jusqu’à un mode plus indirect, où des émotions vont être seulement suggérées, mode dont les approches en TAL ne tiennent généralement pas compte. Nos expériences sur des textes en français pour les enfants mènent à des résultats tout à fait acceptables en comparaison de ce sur quoi des annotateurs humains experts en psycholinguistique s’accordent et à des résultats meilleurs que ceux produits par GPT-3.5 via du prompting. Ceci offre une perspective intéressante de prise en compte des émotions comme facteur d’analyse automatique de la complexité dans les textes, cadre plus général de nos travaux.
2022
pdf
bib
abs
Angry or Sad ? Emotion Annotation for Extremist Content Characterisation
Valentina Dragos
|
Delphine Battistelli
|
Aline Etienne
|
Yolène Constable
Proceedings of the Thirteenth Language Resources and Evaluation Conference
This paper examines the role of emotion annotations to characterize extremist content released on social platforms. The analysis of extremist content is important to identify user emotions towards some extremist ideas and to highlight the root cause of where emotions and extremist attitudes merge together. To address these issues our methodology combines knowledge from sociological and linguistic annotations to explore French extremist content collected online. For emotion linguistic analysis, the solution presented in this paper relies on a complex linguistic annotation scheme. The scheme was used to annotate extremist text corpora in French. Data sets were collected online by following semi-automatic procedures for content selection and validation. The paper describes the integrated annotation scheme, the annotation protocol that was set-up for French corpora annotation and the results, e.g. agreement measures and remarks on annotation disagreements. The aim of this work is twofold: first, to provide a characterization of extremist contents; second, to validate the annotation scheme and to test its capacity to capture and describe various aspects of emotions.
pdf
bib
abs
A (Psycho-)Linguistically Motivated Scheme for Annotating and Exploring Emotions in a Genre-Diverse Corpus
Aline Etienne
|
Delphine Battistelli
|
Gwénolé Lecorvé
Proceedings of the Thirteenth Language Resources and Evaluation Conference
This paper presents a scheme for emotion annotation and its manual application on a genre-diverse corpus of texts written in French. The methodology introduced here emphasizes the necessity of clarifying the main concepts implied by the analysis of emotions as they are expressed in texts, before conducting a manual annotation campaign. After explaining whatentails a deeply linguistic perspective on emotion expression modeling, we present a few NLP works that share some common points with this perspective and meticulously compare our approach with them. We then highlight some interesting quantitative results observed on our annotated corpus. The most notable interactions are on the one hand between emotion expression modes and genres of texts, and on the other hand between emotion expression modes and emotional categories. These observation corroborate and clarify some of the results already mentioned in other NLP works on emotion annotation.
pdf
bib
abs
Une chaîne de traitement pour prédire et appréhender la complexité des textes pour enfants d’un point de vue linguistique (A Processing Chain to Explain the Complexity of Texts for Children From a Linguistic and Psycho-linguistic Point of View)
Delphine Battistelli
|
Aline Etienne
|
Rashedur Rahman
|
Charles Teissèdre
|
Gwénolé Lecorvé
Actes de la 29e Conférence sur le Traitement Automatique des Langues Naturelles. Volume 1 : conférence principale
Nos travaux abordent la question de la mesure de la complexité d’un texte vis-à-vis d’une cible de lecteurs, les enfants en âge de lire, au travers de la mise en place d’une chaîne de traitements. Cette chaîne vise à extraire des descripteurs linguistiques, principalement issus de travaux en psycholinguistique et de travaux sur la lisibilité, mobilisables pour appréhender la complexité d’un texte. En l’appliquant sur un corpus de textes de fiction, elle permet d’étudier des corrélations entre certains descripteurs linguistiques et les tranches d’âges associées aux textes par les éditeurs. L’analyse de ces corrélations tend à valider la pertinence de la catégorisation en âges par les éditeurs. Elle justifie ainsi la mobilisation d’un tel corpus pour entraîner à partir des âges éditeurs un modèle de prédiction de l’âge cible d’un texte.
2020
pdf
bib
abs
Recommandation d’âge pour des textes (Age recommendation for texts)
Alexis Blandin
|
Gwénolé Lecorvé
|
Delphine Battistelli
|
Aline Étienne
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles
Cet article étudie une première tentative pour prédire une recommandation d’âge estimant à partir de quand un enfant pourrait comprendre un texte donné. À ce titre, nous présentons d’abord des descripteurs issus de divers domaines scientifiques, puis proposons différentes architectures de réseaux de neurones et les comparons sur un ensemble de données textuelles en français, dédiées à des publics jeune ou adulte. Pour contourner la faible quantité de données de ce type, nous étudions l’idée de prédire les âges au niveau de la phrase. Les expériences montrent que cette hypothèse, quoique forte, conduit d’ores et déjà à de bons résultats, meilleurs que ceux fournis par des experts psycholinguistes, y compris lorsque les phrases isolées sont remplacées par textes complets.
pdf
bib
abs
L’expression des émotions dans les textes pour enfants : constitution d’un corpus annoté (Expressing emotions in texts for children: constitution of an annotated corpus)
Aline Étienne
|
Delphine Battistelli
|
Gwénolé Lecorvé
Actes de la 6e conférence conjointe Journées d'Études sur la Parole (JEP, 33e édition), Traitement Automatique des Langues Naturelles (TALN, 27e édition), Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL, 22e édition). Volume 2 : Traitement Automatique des Langues Naturelles
Cet article présente une typologie de divers modes d’expression linguistique des émotions, le schéma d’annotation sous Glozz qui implémente cette typologie et un corpus de textes journalistiques pour enfants annoté à l’aide de ce schéma. Ces travaux préliminaires s’insèrent dans le contexte d’une étude relative au développement des capacités langagières des enfants, en particulier de leur capacité à comprendre un texte selon des critères émotionnels.
pdf
bib
abs
Age Recommendation for Texts
Alexis Blandin
|
Gwénolé Lecorvé
|
Delphine Battistelli
|
Aline Étienne
Proceedings of the Twelfth Language Resources and Evaluation Conference
The understanding of a text by a reader or listener is conditioned by the adequacy of the text’s characteristics with the person’s capacities and knowledge. This adequacy is critical in the case of a child since her/his cognitive and linguistic skills are still under development. Hence, in this paper, we present and study an original natural language processing (NLP) task which consists in predicting the age from which a text can be understood by someone. To do so, this paper first exhibits features derived from the psycholinguistic domain, as well as some coming from related NLP tasks. Then, we propose a set of neural network models and compare them on a dataset of French texts dedicated to young or adult audiences. To circumvent the lack of data, we study the idea to predict ages at the sentence level. The experiments first show that the sentence-based age recommendations can be efficiently merged to predict text-based recommendations. Then, we also demonstrate that the age predictions returned by our best model are better than those provided by psycholinguists. Finally, the paper investigates the impact of the various features used in these results.
pdf
bib
abs
Mama/Papa, Is this Text for Me?
Rashedur Rahman
|
Gwénolé Lecorvé
|
Aline Étienne
|
Delphine Battistelli
|
Nicolas Béchet
|
Jonathan Chevelu
Proceedings of the 28th International Conference on Computational Linguistics
Children have less linguistic skills than adults, which makes it more difficult for them to understand some texts, for instance when browsing the Internet. In this context, we present a novel method which predicts the minimal age from which a text can be understood. This method analyses each sentence of a text using a recurrent neural network, and then aggregates this information to provide the text-level prediction. Different approaches are proposed and compared to baseline models, at sentence and text levels. Experiments are carried out on a corpus of 1, 500 texts and 160K sentences. Our best model, based on LSTMs, outperforms state-of-the-art results and achieves mean absolute errors of 1.86 and 2.28, at sentence and text levels, respectively.