Apprentissage bayésien incrémental pour la détermination de l’âge et du genre d’utilisateurs de plateformes du web social (UGC text-based age & gender author profiling through incrementally semi-supervised bayesian learning)

Jugurtha Aït Hamlat


Abstract
Les méthodes de classification textuelles basées sur l’apprentissage automatique ont l’avantage, en plus d’être robustes, de fournir des résultats satisfaisants, sous réserve de disposer d’une base d’entraînement de qualité et en quantité suffisante. Les corpus d’apprentissage étant coûteux à construire, leur carence à grande échelle se révèle être l’une des principales causes d’erreurs. Dans un contexte industriel à forte volumétrie de données, nous présentons une approche de prédiction des deux plus importants indicateurs socio-démographiques « âge » et « genre » appliquée à des utilisateurs de forums, blogs et réseaux sociaux et ce, à partir de leurs seules productions textuelles. Le modèle bayésien multinomial est construit à partir d’un processus d’apprentissage incrémental et itératif sur une vaste base d’entraînement semi-supervisée. Le caractère incrémental permet de s’affranchir des contraintes de volumétrie. L’aspect itératif a pour objectif d’affiner le modèle et d’augmenter ainsi les niveaux de rappel & précision.
Anthology ID:
2016.jeptalnrecital-recital.2
Volume:
Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 3 : RECITAL
Month:
7
Year:
2016
Address:
Paris, France
Editors:
Laurence Danlos, Thierry Hamon
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
AFCP - ATALA
Note:
Pages:
13–26
Language:
French
URL:
https://aclanthology.org/2016.jeptalnrecital-recital.2
DOI:
Bibkey:
Cite (ACL):
Jugurtha Aït Hamlat. 2016. Apprentissage bayésien incrémental pour la détermination de l’âge et du genre d’utilisateurs de plateformes du web social (UGC text-based age & gender author profiling through incrementally semi-supervised bayesian learning). In Actes de la conférence conjointe JEP-TALN-RECITAL 2016. volume 3 : RECITAL, pages 13–26, Paris, France. AFCP - ATALA.
Cite (Informal):
Apprentissage bayésien incrémental pour la détermination de l’âge et du genre d’utilisateurs de plateformes du web social (UGC text-based age & gender author profiling through incrementally semi-supervised bayesian learning) (Hamlat, JEP/TALN/RECITAL 2016)
Copy Citation:
PDF:
https://aclanthology.org/2016.jeptalnrecital-recital.2.pdf