Gaël Patin


2018

pdf bib
Apprentissage déséquilibré pour la détection des signaux de l’implication durable dans les conversations en parfumerie (Automatic detection of positive enduring involvement signals in fragrance products reviews)
Yizhe Wang | Damien Nouvel | Gaël Patin | Marguerite Leenhardt
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN

Une simple détection d’opinions positives ou négatives ne satisfait plus les chercheurs et les entreprises. Le monde des affaires est à la recherche d’un «aperçu des affaires». Beaucoup de méthodes peuvent être utilisées pour traiter le problème. Cependant, leurs performances, lorsque les classes ne sont pas équilibrées, peuvent être dégradées. Notre travail se concentre sur l’étude des techniques visant à traiter les données déséquilibrées en parfumerie. Cinq méthodes ont été comparées : Smote, Adasyn, Tomek links, Smote-TL et la modification du poids des classe. L’algorithme d’apprentissage choisi est le SVM et l’évaluation est réalisée par le calcul des scores de précision, de rappel et de f-mesure. Selon les résultats expérimentaux, la méthode en ajustant le poids sur des coût d’erreurs avec SVM, nous permet d’obtenir notre meilleure F-mesure.

2010

pdf bib
Incremental Chinese Lexicon Extraction with Minimal Resources on a Domain-Specific Corpus
Gaël Patin
Coling 2010: Posters

2009

pdf bib
Extraction de lexique dans un corpus spécialisé en chinois contemporain
Gaël Patin
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues

La constitution de ressources lexicales est une tâche cruciale pour l’amélioration des performances des systèmes de recherche d’information. Cet article présente une méthode d’extraction d’unités lexicales en chinois contemporain dans un corpus spécialisé non-annoté et non-segmenté. Cette méthode se base sur une construction incrémentale de l’unité lexicale orientée par une mesure d’association. Elle se distingue des travaux précédents par une approche linguistique non-supervisée assistée par les statistiques. Les résultats de l’extraction, évalués sur un échantillon aléatoire du corpus de travail, sont honorables avec des scores de précision et de rappel respectivement de 52,6 % et 53,7 %.