Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire

Léandre Adam-Cuvillier, Pierre-Jean Larpin, Antoine Simoulin


Abstract
Nous présentons une étude pour mieux identifier comment les stéréotypes se reflètent dans les modèles de langue français. Nous adaptons le jeu de données StereoSet à la langue française et suivons le même protocole expérimental que celui utilisé pour l’anglais. Alors que les stéréotypes sont connus pour évoluer en fonction des contextes culturels et temporels, notre étude identifie des similitudes avec les résultats observés pour l’anglais, notamment en ce qui concerne la corrélation entre les capacités linguistiques des modèles et la présence de biais mesurables. Nous étendons notre étude en examinant des architectures de réseaux neuronaux similaires pré-entraînées sur des corpus linguistiques différents. Nos résultats mettent en évidence l’impact crucial des données de pré-entraînement sur les biais constatés dans les modèles français. De plus, nous observons que l’utilisation de corpus multilingues pour le pré-entraînement peut avoir un effet positif sur l’atténuation des biais.
Anthology ID:
2024.jeptalnrecital-taln.9
Volume:
Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position
Month:
7
Year:
2024
Address:
Toulouse, France
Editors:
Mathieu Balaguer, Nihed Bendahman, Lydia-Mai Ho-dac, Julie Mauclair, Jose G Moreno, Julien Pinquier
Venue:
JEP/TALN/RECITAL
SIG:
Publisher:
ATALA and AFPC
Note:
Pages:
130–143
Language:
French
URL:
https://aclanthology.org/2024.jeptalnrecital-taln.9
DOI:
Bibkey:
Cite (ACL):
Léandre Adam-Cuvillier, Pierre-Jean Larpin, and Antoine Simoulin. 2024. Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire. In Actes de la 31ème Conférence sur le Traitement Automatique des Langues Naturelles, volume 1 : articles longs et prises de position, pages 130–143, Toulouse, France. ATALA and AFPC.
Cite (Informal):
Les représentations contextuelles stéréotypées dans les modèles de langue français : mieux les identifier pour ne pas les reproduire (Adam-Cuvillier et al., JEP/TALN/RECITAL 2024)
Copy Citation:
PDF:
https://aclanthology.org/2024.jeptalnrecital-taln.9.pdf