Gaël Patin
2018
Apprentissage déséquilibré pour la détection des signaux de l’implication durable dans les conversations en parfumerie (Automatic detection of positive enduring involvement signals in fragrance products reviews)
Yizhe Wang
|
Damien Nouvel
|
Gaël Patin
|
Marguerite Leenhardt
Actes de la Conférence TALN. Volume 1 - Articles longs, articles courts de TALN
Une simple détection d’opinions positives ou négatives ne satisfait plus les chercheurs et les entreprises. Le monde des affaires est à la recherche d’un «aperçu des affaires». Beaucoup de méthodes peuvent être utilisées pour traiter le problème. Cependant, leurs performances, lorsque les classes ne sont pas équilibrées, peuvent être dégradées. Notre travail se concentre sur l’étude des techniques visant à traiter les données déséquilibrées en parfumerie. Cinq méthodes ont été comparées : Smote, Adasyn, Tomek links, Smote-TL et la modification du poids des classe. L’algorithme d’apprentissage choisi est le SVM et l’évaluation est réalisée par le calcul des scores de précision, de rappel et de f-mesure. Selon les résultats expérimentaux, la méthode en ajustant le poids sur des coût d’erreurs avec SVM, nous permet d’obtenir notre meilleure F-mesure.
2010
Incremental Chinese Lexicon Extraction with Minimal Resources on a Domain-Specific Corpus
Gaël Patin
Coling 2010: Posters
2009
Extraction de lexique dans un corpus spécialisé en chinois contemporain
Gaël Patin
Actes de la 16ème conférence sur le Traitement Automatique des Langues Naturelles. REncontres jeunes Chercheurs en Informatique pour le Traitement Automatique des Langues
La constitution de ressources lexicales est une tâche cruciale pour l’amélioration des performances des systèmes de recherche d’information. Cet article présente une méthode d’extraction d’unités lexicales en chinois contemporain dans un corpus spécialisé non-annoté et non-segmenté. Cette méthode se base sur une construction incrémentale de l’unité lexicale orientée par une mesure d’association. Elle se distingue des travaux précédents par une approche linguistique non-supervisée assistée par les statistiques. Les résultats de l’extraction, évalués sur un échantillon aléatoire du corpus de travail, sont honorables avec des scores de précision et de rappel respectivement de 52,6 % et 53,7 %.
Search