Un turc mécanique pour les ressources linguistiques : critique de la myriadisation du travail parcellisé (Mechanical Turk for linguistic resources: review of the crowdsourcing of parceled work)

Benoît Sagot, Karën Fort, Gilles Adda, Joseph Mariani, Bernard Lang


Abstract
Cet article est une prise de position concernant les plate-formes de type Amazon Mechanical Turk, dont l’utilisation est en plein essor depuis quelques années dans le traitement automatique des langues. Ces plateformes de travail en ligne permettent, selon le discours qui prévaut dans les articles du domaine, de faire développer toutes sortes de ressources linguistiques de qualité, pour un prix imbattable et en un temps très réduit, par des gens pour qui il s’agit d’un passe-temps. Nous allons ici démontrer que la situation est loin d’être aussi idéale, que ce soit sur le plan de la qualité, du prix, du statut des travailleurs ou de l’éthique. Nous rappellerons ensuite les solutions alternatives déjà existantes ou proposées. Notre but est ici double : informer les chercheurs, afin qu’ils fassent leur choix en toute connaissance de cause, et proposer des solutions pratiques et organisationnelles pour améliorer le développement de nouvelles ressources linguistiques en limitant les risques de dérives éthiques et légales, sans que cela se fasse au prix de leur coût ou de leur qualité.
Anthology ID:
2011.jeptalnrecital-long.12
Volume:
Actes de la 18e conférence sur le Traitement Automatique des Langues Naturelles. Articles longs
Month:
June
Year:
2011
Address:
Montpellier, France
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA
Note:
Pages:
129–140
Language:
French
URL:
https://aclanthology.org/2011.jeptalnrecital-long.12
DOI:
Bibkey:
Copy Citation:
PDF:
https://aclanthology.org/2011.jeptalnrecital-long.12.pdf