Enzo Doyen
2025
GeNRe: A French Gender-Neutral Rewriting System Using Collective Nouns
Enzo Doyen
|
Amalia Todirascu
Findings of the Association for Computational Linguistics: ACL 2025
A significant portion of the textual data used in the field of Natural Language Processing (NLP) exhibits gender biases, particularly due to the use of masculine generics (masculine words that are supposed to refer to mixed groups of men and women), which can perpetuate and amplify stereotypes. Gender rewriting, an NLP task that involves automatically detecting and replacing gendered forms with neutral or opposite forms (e.g., from masculine to feminine), can be employed to mitigate these biases. While such systems have been developed in a number of languages (English, Arabic, Portuguese, German, French), automatic use of gender neutralization techniques (as opposed to inclusive or gender-switching techniques) has only been studied for English. This paper presents GeNRe, the very first French gender-neutral rewriting system using collective nouns, which are gender-fixed in French. We introduce a rule-based system (RBS) tailored for the French language alongside two fine-tuned language models trained on data generated by our RBS. We also explore the use of instruct-based models to enhance the performance of our other systems and find that Claude 3 Opus combined with our dictionary achieves results close to our RBS. Through this contribution, we hope to promote the advancement of gender bias mitigation techniques in NLP for French.
GeNRe : un système de neutralisation automatique du genre exploitant les noms collectifs
Enzo Doyen
|
Amalia Todirascu
Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 2 : traductions d'articles publiés
Les outils de traitement automatique des langues (TAL) ont tendance à introduire des biais de genre, notamment par une surutilisation du masculin générique. La tâche de réécriture du genre en TAL, qui vise à remplacer des formes genrées par des formes neutres, inclusives ou contraires, peut permettre de réduire ces biais. Bien que des travaux de neutralisation automatique du genre aient été conduits en anglais, aucun projet similaire n’existe pour le français. Cet article présente GeNRe, le tout premier système de neutralisation automatique du genre, qui exploite les noms collectifs. Nous présentons un modèle à base de règles (SBR) et affinons deux modèles de langue à partir des données générées. Nous nous intéressons aussi aux modèles d’instruction, jusque-là inutilisés pour cette tâche, en particulier Claude 3 Opus. Nous obtenons des résultats similaires pour le SBR et Claude 3 Opus lorsqu’il est utilisé conjointement avec notre dictionnaire.