2021
pdf
bib
abs
LUC at ComMA-2021 Shared Task: Multilingual Gender Biased and Communal Language Identification without Using Linguistic Features
Rodrigo Cuéllar-Hidalgo
|
Julio de Jesús Guerrero-Zambrano
|
Dominic Forest
|
Gerardo Reyes-Salgado
|
Juan-Manuel Torres-Moreno
Proceedings of the 18th International Conference on Natural Language Processing: Shared Task on Multilingual Gender Biased and Communal Language Identification
This work aims to evaluate the ability that both probabilistic and state-of-the-art vector space modeling (VSM) methods provide to well known machine learning algorithms to identify social network documents to be classified as aggressive, gender biased or communally charged. To this end, an exploratory stage was performed first in order to find relevant settings to test, i.e. by using training and development samples, we trained multiple algorithms using multiple vector space modeling and probabilistic methods and discarded the less informative configurations. These systems were submitted to the competition of the ComMA@ICON’21 Workshop on Multilingual Gender Biased and Communal Language Identification.
2020
pdf
bib
abs
Enhancing Job Searches in Mexico City with Language Technologies
Gerardo Sierra Martínez
|
Gemma Bel-Enguix
|
Helena Gómez-Adorno
|
Juan Manuel Torres Moreno
|
Tonatiuh Hernández-García
|
Julio V Guadarrama-Olvera
|
Jesús-Germán Ortiz-Barajas
|
Ángela María Rojas
|
Tomas Damerau
|
Soledad Aragón Martínez
Proceedings of the 1st Workshop on Language Technologies for Government and Public Administration (LT4Gov)
In this paper, we show the enhancing of the Demanded Skills Diagnosis (DiCoDe: Diagnóstico de Competencias Demandadas), a system developed by Mexico City’s Ministry of Labor and Employment Promotion (STyFE: Secretaría de Trabajo y Fomento del Empleo de la Ciudad de México) that seeks to reduce information asymmetries between job seekers and employers. The project uses webscraping techniques to retrieve job vacancies posted on private job portals on a daily basis and with the purpose of informing training and individual case management policies as well as labor market monitoring. For this purpose, a collaboration project between STyFE and the Language Engineering Group (GIL: Grupo de Ingeniería Lingüística) was established in order to enhance DiCoDe by applying NLP models and semantic analysis. By this collaboration, DiCoDe’s job vacancies system’s macro-structure and its geographic referencing at the city hall (municipality) level were improved. More specifically, dictionaries were created to identify demanded competencies, skills and abilities (CSA) and algorithms were developed for dynamic classifying of vacancies and identifying terms for searches on free text, in order to improve the results and processing time of queries.
2018
pdf
bib
abs
Predicting the Semantic Textual Similarity with Siamese CNN and LSTM
Elvys Linhares Pontes
|
Stéphane Huet
|
Andréa Carneiro Linhares
|
Juan-Manuel Torres-Moreno
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Semantic Textual Similarity (STS) is the basis of many applications in Natural Language Processing (NLP). Our system combines convolution and recurrent neural networks to measure the semantic similarity of sentences. It uses a convolution network to take account of the local context of words and an LSTM to consider the global context of sentences. This combination of networks helps to preserve the relevant information of sentences and improves the calculation of the similarity between sentences. Our model has achieved good results and is competitive with the best state-of-the-art systems.
pdf
bib
abs
DEFT2018 : recherche d’information et analyse de sentiments dans des tweets concernant les transports en Île de France (DEFT2018 : Information Retrieval and Sentiment Analysis in Tweets about Public Transportation in Île de France Region )
Patrick Paroubek
|
Cyril Grouin
|
Patrice Bellot
|
Vincent Claveau
|
Iris Eshkol-Taravella
|
Amel Fraisse
|
Agata Jackiewicz
|
Jihen Karoui
|
Laura Monceaux
|
Juan-Manuel Torres-Moreno
Actes de la Conférence TALN. Volume 2 - Démonstrations, articles des Rencontres Jeunes Chercheurs, ateliers DeFT
Cet article présente l’édition 2018 de la campagne d’évaluation DEFT (Défi Fouille de Textes). A partir d’un corpus de tweets, quatre tâches ont été proposées : identifier les tweets sur la thématique des transports, puis parmi ces derniers, identifier la polarité (négatif, neutre, positif, mixte), identifier les marqueurs de sentiment et la cible, et enfin, annoter complètement chaque tweet en source et cible des sentiments exprimés. Douze équipes ont participé, majoritairement sur les deux premières tâches. Sur l’identification de la thématique des transports, la micro F-mesure varie de 0,827 à 0,908. Sur l’identification de la polarité globale, la micro F-mesure varie de 0,381 à 0,823.
pdf
bib
A New Annotated Portuguese/Spanish Corpus for the Multi-Sentence Compression Task
Elvys Linhares Pontes
|
Juan-Manuel Torres-Moreno
|
Stéphane Huet
|
Andréa Carneiro Linhares
Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)
pdf
bib
abs
Multi-Sentence Compression with Word Vertex-Labeled Graphs and Integer Linear Programming
Elvys Linhares Pontes
|
Stéphane Huet
|
Thiago Gouveia da Silva
|
Andréa Carneiro Linhares
|
Juan-Manuel Torres-Moreno
Proceedings of the Twelfth Workshop on Graph-Based Methods for Natural Language Processing (TextGraphs-12)
Multi-Sentence Compression (MSC) aims to generate a short sentence with key information from a cluster of closely related sentences. MSC enables summarization and question-answering systems to generate outputs combining fully formed sentences from one or several documents. This paper describes a new Integer Linear Programming method for MSC using a vertex-labeled graph to select different keywords, and novel 3-gram scores to generate more informative sentences while maintaining their grammaticality. Our system is of good quality and outperforms the state-of-the-art for evaluations led on news dataset. We led both automatic and manual evaluations to determine the informativeness and the grammaticality of compressions for each dataset. Additional tests, which take advantage of the fact that the length of compressions can be modulated, still improve ROUGE scores with shorter output sentences.
pdf
bib
abs
Cyberbullying Detection Task: the EBSI-LIA-UNAM System (ELU) at COLING’18 TRAC-1
Ignacio Arroyo-Fernández
|
Dominic Forest
|
Juan-Manuel Torres-Moreno
|
Mauricio Carrasco-Ruiz
|
Thomas Legeleux
|
Karen Joannette
Proceedings of the First Workshop on Trolling, Aggression and Cyberbullying (TRAC-2018)
The phenomenon of cyberbullying has growing in worrying proportions with the development of social networks. Forums and chat rooms are spaces where serious damage can now be done to others, while the tools for avoiding on-line spills are still limited. This study aims to assess the ability that both classical and state-of-the-art vector space modeling methods provide to well known learning machines to identify aggression levels in social network cyberbullying (i.e. social network posts manually labeled as Overtly Aggressive, Covertly Aggressive and Non-aggressive). To this end, an exploratory stage was performed first in order to find relevant settings to test, i.e. by using training and development samples, we trained multiple learning machines using multiple vector space modeling methods and discarded the less informative configurations. Finally, we selected the two best settings and their voting combination to form three competing systems. These systems were submitted to the competition of the TRACK-1 task of the Workshop on Trolling, Aggression and Cyberbullying. Our voting combination system resulted second place in predicting Aggression levels on a test set of untagged social network posts.
2014
pdf
bib
Classification and Optimization Algorithms: the LIA/ADOC participation at DEFT’14 (Algorithmes de classification et d’optimisation : participation du LIA/ADOC à DEFT’14) [in French]
Luis Adrián Cabrera-Diego
|
Stéphane Huet
|
Bassam Jabaian
|
Alejandro Molina
|
Juan-Manuel Torres-Moreno
|
Marc El-Bèze
|
Barthélémy Durette
TALN-RECITAL 2014 Workshop DEFT 2014 : DÉfi Fouille de Textes (DEFT 2014 Workshop: Text Mining Challenge)
2013
pdf
bib
SegCV : Eficient parsing of résumés with analysis and correction of errors (SegCV : traitement efficace de CV avec analyse et correction d’erreurs) [in French]
Luis Adrián Cabrera-Diego
|
Juan-Manuel Torres-Moreno
|
Marc El-Bèze
Proceedings of TALN 2013 (Volume 2: Short Papers)
pdf
bib
Search and usage of named conceptual entities in a categorisazion task (Recherche et utilisation d’entités nommées conceptuelles dans une tâche de catégorisation) [in French]
Jean-Valère Cossu
|
Juan-Manuel Torres-Moreno
|
Marc El-Bèze
Proceedings of TALN 2013 (Volume 2: Short Papers)
2011
pdf
bib
abs
Utilisation d’un score de qualité de traduction pour le résumé multi-document cross-lingue (Using translation quality scores for cross-language multi-document summarization)
Stéphane Huet
|
Florian Boudin
|
Juan-Manuel Torres-Moreno
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Le résumé automatique cross-lingue consiste à générer un résumé rédigé dans une langue différente de celle utilisée dans les documents sources. Dans cet article, nous proposons une approche de résumé automatique multi-document, basée sur une représentation par graphe, qui prend en compte des scores de qualité de traduction lors du processus de sélection des phrases. Nous évaluons notre méthode sur un sous-ensemble manuellement traduit des données utilisées lors de la campagne d’évaluation internationale DUC 2004. Les résultats expérimentaux indiquent que notre approche permet d’améliorer la lisibilité des résumés générés, sans pour autant dégrader leur informativité.
pdf
bib
On the Development of the RST Spanish Treebank
Iria da Cunha
|
Juan-Manuel Torres-Moreno
|
Gerardo Sierra
Proceedings of the 5th Linguistic Annotation Workshop
pdf
bib
The RST Spanish Treebank On-line Interface
Iria da Cunha
|
Juan-Manuel Torres-Moreno
|
Gerardo Sierra
|
Luis-Adrián Cabrera-Diego
|
Brenda-Gabriela Castro-Rolón
|
Juan-Miguel Rolland Bartilotti
Proceedings of the International Conference Recent Advances in Natural Language Processing 2011
2010
pdf
bib
abs
Évaluation automatique de résumés avec et sans référence
Juan-Manuel Torres-Moreno
|
Horacio Saggion
|
Iria da Cunha
|
Patricia Velázquez-Morales
|
Eric Sanjuan
Actes de la 17e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous étudions différentes méthodes d’évaluation de résumé de documents basées sur le contenu. Nous nous intéressons en particulier à la corrélation entre les mesures d’évaluation avec et sans référence humaine. Nous avons développé FRESA, un nouveau système d’évaluation fondé sur le contenu qui calcule les divergences entre les distributions de probabilité. Nous appliquons notre système de comparaison aux diverses mesures d’évaluation bien connues en résumé de texte telles que la Couverture, Responsiveness, Pyramids et Rouge en étudiant leurs associations dans les tâches du résumé multi-document générique (francais/anglais), focalisé (anglais) et résumé mono-document générique (français/espagnol).
pdf
bib
Multilingual Summarization Evaluation without Human Models
Horacio Saggion
|
Juan-Manuel Torres-Moreno
|
Iria da Cunha
|
Eric SanJuan
|
Patricia Velázquez-Morales
Coling 2010: Posters
pdf
bib
abs
Automatic Summarization Using Terminological and Semantic Resources
Jorge Vivaldi
|
Iria da Cunha
|
Juan-Manuel Torres-Moreno
|
Patricia Velázquez-Morales
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
This paper presents a new algorithm for automatic summarization of specialized texts combining terminological and semantic resources: a term extractor and an ontology. The term extractor provides the list of the terms that are present in the text together their corresponding termhood. The ontology is used to calculate the semantic similarity among the terms found in the main body and those present in the document title. The general idea is to obtain a relevance score for each sentence taking into account both the termhood of the terms found in such sentence and the similarity among such terms and those terms present in the title of the document. The phrases with the highest score are chosen to take part of the final summary. We evaluate the algorithm with Rouge, comparing the resulting summaries with the summaries of other summarizers. The sentence selection algorithm was also tested as part of a standalone summarizer. In both cases it obtains quite good results although the perception is that there is a space for improvement.
pdf
bib
abs
NLGbAse: A Free Linguistic Resource for Natural Language Processing Systems
Eric Charton
|
Juan-Manuel Torres-Moreno
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
Availability of labeled language resources, such as annotated corpora and domain dependent labeled language resources is crucial for experiments in the field of Natural Language Processing. Most often, due to lack of resources, manual verification and annotation of electronic text material is a prerequisite for the development of NLP tools. In the context of under-resourced language, the lack of copora becomes a crucial problem because most of the research efforts are supported by organizations with limited funds. Using free, multilingual and highly structured corpora like Wikipedia to produce automatically labeled language resources can be an answer to those needs. This paper introduces NLGbAse, a multilingual linguistic resource built from the Wikipedia encyclopedic content. This system produces structured metadata which make possible the automatic annotation of corpora with syntactical and semantical labels. A metadata contains semantical and statistical informations related to an encyclopedic document. To validate our approach, we built and evaluated a Named Entity Recognition tool, trained with Wikipedia corpora annotated by our system.
pdf
bib
abs
A French Human Reference Corpus for Multi-Document Summarization and Sentence Compression
Claude de Loupy
|
Marie Guégan
|
Christelle Ayache
|
Somara Seng
|
Juan-Manuel Torres Moreno
Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC'10)
This paper presents two corpora produced within the RPM2 project: a multi-document summarization corpus and a sentence compression corpus. Both corpora are in French. The first one is the only one we know in this language. It contains 20 topics with 20 documents each. A first set of 10 documents per topic is summarized and then the second set is used to produce an update summarization (new information). 4 annotators were involved and produced a total of 160 abstracts. The second corpus contains all the sentences of the first one. 4 annotators were asked to compress the 8432 sentences. This is the biggest corpus of compressed sentences we know, whatever the language. The paper provides some figures in order to compare the different annotators: compression rates, number of tokens per sentence, percentage of tokens kept according to their POS, position of dropped tokens in the sentence compression phase, etc. These figures show important differences from an annotator to the other. Another point is the different strategies of compression used according to the length of the sentence.
2009
pdf
bib
abs
Classification d’un contenu encyclopédique en vue d’un étiquetage par entités nommées
Eric Charton
|
Juan-Manuel Torres-Moreno
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
On utilise souvent des ressources lexicales externes pour améliorer les performances des systèmes d’étiquetage d’entités nommées. Les contenus de ces ressources lexicales peuvent être variés : liste de noms propres, de lieux, de marques. On note cependant que la disponibilité de corpus encyclopédiques exhaustifs et ouverts de grande taille tels que Worldnet ou Wikipedia, a fait émerger de nombreuses propositions spécifiques d’exploitation de ces contenus par des systèmes d’étiquetage. Un problème demeure néanmoins ouvert avec ces ressources : celui de l’adaptation de leur taxonomie interne, complexe et composée de dizaines de milliers catégories, aux exigences particulières de l’étiquetage des entités nommées. Pour ces dernières, au plus de quelques centaines de classes sémantiques sont requises. Dans cet article nous explorons cette difficulté et proposons un système complet de transformation d’un arbre taxonomique encyclopédique en une système à classe sémantiques adapté à l’étiquetage d’entités nommées.
pdf
bib
abs
Profilage de candidatures assisté par Relevance Feedback
Rémy Kessler
|
Nicolas Béchet
|
Juan-Manuel Torres-Moreno
|
Mathieu Roche
|
Marc El-Bèze
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Le marché d’offres d’emploi et des candidatures sur Internet connaît une croissance exponentielle. Ceci implique des volumes d’information (majoritairement sous la forme de texte libre) qu’il n’est plus possible de traiter manuellement. Une analyse et catégorisation assistées nous semble pertinente en réponse à cette problématique. Nous proposons E-Gen, système qui a pour but l’analyse et catégorisation assistés d’offres d’emploi et des réponses des candidats. Dans cet article nous présentons plusieurs stratégies, reposant sur les modèles vectoriel et probabiliste, afin de résoudre la problématique du profilage des candidatures en fonction d’une offre précise. Nous avons évalué une palette de mesures de similarité afin d’effectuer un classement pertinent des candidatures au moyen des courbes ROC. L’utilisation d’une forme de relevance feedback a permis de surpasser nos résultats sur ce problème difficile et sujet à une grande subjectivité.
pdf
bib
abs
Résumé automatique multi-document et indépendance de la langue : une première évaluation en français
Florian Boudin
|
Juan-Manuel Torres-Moreno
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Le résumé automatique de texte est une problématique difficile, fortement dépendante de la langue et qui peut nécessiter un ensemble de données d’apprentissage conséquent. L’approche par extraction peut aider à surmonter ces difficultés. (Mihalcea, 2004) a démontré l’intérêt des approches à base de graphes pour l’extraction de segments de texte importants. Dans cette étude, nous décrivons une approche indépendante de la langue pour la problématique du résumé automatique multi-documents. L’originalité de notre méthode repose sur l’utilisation d’une mesure de similarité permettant le rapprochement de segments morphologiquement proches. De plus, c’est à notre connaissance la première fois que l’évaluation d’une approche de résumé automatique multi-document est conduite sur des textes en français.
pdf
bib
abs
Une approche exploratoire de compression automatique de phrases basée sur des critères thermodynamiques
Silvia Fernández Sabido
|
Juan-Manuel Torres-Moreno
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
Nous présentons une approche exploratoire basée sur des notions thermodynamiques de la Physique statistique pour la compression de phrases. Nous décrivons le modèle magnétique des verres de spins, adapté à notre conception de la problématique. Des simulations Métropolis Monte-Carlo permettent d’introduire des fluctuations thermiques pour piloter la compression. Des comparaisons intéressantes de notre méthode ont été réalisées sur un corpus en français.
pdf
bib
Proceedings of the 1st Workshop on Definition Extraction
Gerardo Sierra
|
Mara Pozzi
|
Juan-Manuel Torres
Proceedings of the 1st Workshop on Definition Extraction
2008
pdf
bib
abs
Extraction automatique d’informations à partir de micro-textes non structurés
Cédric Vidrequin
|
Juan-Manuel Torres-Moreno
|
Jean-Jacques Schneider
|
Marc El-Bèze
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Nous présentons dans cet article une méthode d’extraction automatique d’informations sur des textes de très petite taille, faiblement structurés. Nous travaillons sur des textes dont la rédaction n’est pas normalisée, avec très peu de mots pour caractériser chaque information. Les textes ne contiennent pas ou très peu de phrases. Il s’agit le plus souvent de morceaux de phrases ou d’expressions composées de quelques mots. Nous comparons plusieurs méthodes d’extraction, dont certaines sont entièrement automatiques. D’autres utilisent en partie une connaissance du domaine que nous voulons réduite au minimum, de façon à minimiser le travail manuel en amont. Enfin, nous présentons nos résultats qui dépassent ce dont il est fait état dans la littérature, avec une précision équivalente et un rappel supérieur.
pdf
bib
abs
Enertex : un système basé sur l’énergie textuelle
Silvia Fernández
|
Eric Sanjuan
|
Juan-Manuel Torres-Moreno
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous présentons des applications du système Enertex au Traitement Automatique de la Langue Naturelle. Enertex est basé sur l’énergie textuelle, une approche par réseaux de neurones inspirée de la physique statistique des systèmes magnétiques. Nous avons appliqué cette approche aux problèmes du résumé automatique multi-documents et de la détection de frontières thématiques. Les résultats, en trois langues : anglais, espagnol et français, sont très encourageants.
pdf
bib
abs
E-Gen : Profilage automatique de candidatures
Rémy Kessler
|
Juan-Manuel Torres-Moreno
|
Marc El-Bèze
Actes de la 15ème conférence sur le Traitement Automatique des Langues Naturelles. Articles courts
La croissance exponentielle de l’Internet a permis le développement de sites d’offres d’emploi en ligne. Le système E-Gen (Traitement automatique d’offres d’emploi) a pour but de permettre l’analyse et la catégorisation d’offres d’emploi ainsi qu’une analyse et classification des réponses des candidats (Lettre de motivation et CV). Nous présentons les travaux réalisés afin de résoudre la seconde partie : on utilise une représentation vectorielle de texte pour effectuer une classification des pièces jointes contenus dans le mail à l’aide de SVM. Par la suite, une évaluation de la candidature est effectuée à l’aide de différents classifieurs (SVM et n-grammes de mots).
pdf
bib
A Scalable MMR Approach to Sentence Scoring for Multi-Document Update Summarization
Florian Boudin
|
Marc El-Bèze
|
Juan-Manuel Torres-Moreno
Coling 2008: Companion volume: Posters
2007
pdf
bib
abs
Énergie textuelle de mémoires associatives
Silvia Fernández
|
Eric Sanjuan
|
Juan-Manuel Torres-Moreno
Actes de la 14ème conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Dans cet article, nous présentons une approche de réseaux de neurones inspirée de la physique statistique de systèmes magnétiques pour étudier des problèmes fondamentaux du Traitement Automatique de la Langue Naturelle. L’algorithme modélise un document comme un système de neurones où l’on déduit l’énergie textuelle. Nous avons appliqué cette approche aux problèmes de résumé automatique et de détection de frontières thématiques. Les résultats sont très encourageants.