@inproceedings{alonzo-canul-etal-2025-vers,
title = "Vers l{'}entra{\^i}nement de mod{\`e}les de reconnaissance automatique de la parole auto-supervis{\'e}s {\'e}quitables sans {\'e}tiquettes d{\'e}mographiques",
author = "Alonzo-Canul, Laura and
Lecouteux, Benjamin and
Portet, Fran{\c{c}}ois",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 32{\`e}me Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-taln.47/",
pages = "780--790",
language = "fra",
abstract = "Malgr{\'e} des avanc{\'e}es importantes dans le domaine de la Reconnaissance Automatique de la Parole (RAP), les performances de reconnaissance restent in{\'e}gales selon les groupes de locuteurs, ce qui pose des probl{\`e}mes d'{\'e}quit{\'e}. Bien qu{'}il existe des m{\'e}thodes pour r{\'e}duire ces in{\'e}galit{\'e}s, elles d{\'e}pendent de ressources externes au signal vocal, telles que des mod{\`e}les de locuteur (speaker embeddings) ou des {\'e}tiquettes d{\'e}mographiques textuelles, qui peuvent {\^e}tre indisponibles ou peu fiables. Dans ce travail, nous proposons une m{\'e}thode pour am{\'e}liorer l'{\'e}quit{\'e} dans la RAP qui ne d{\'e}pend d{'}aucune de ces ressources. Notre approche utilise une m{\'e}thode de clustering non supervis{\'e} {\`a} partir de repr{\'e}sentations acoustiques classiques, auto-supervis{\'e}es et hybrides. Nos exp{\'e}riences avec CommonV oice 16.1 d{\'e}montrent que les mod{\`e}les entra{\^i}n{\'e}s sur les clusters d{\'e}couverts am{\'e}liorent les performances des groupes d{\'e}mographiques d{\'e}savantag{\'e}s tout en conservant des performances comp{\'e}titives et en utilisant deux fois moins de donn{\'e}es d{'}entra{\^i}nement."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="alonzo-canul-etal-2025-vers">
<titleInfo>
<title>Vers l’entraînement de modèles de reconnaissance automatique de la parole auto-supervisés équitables sans étiquettes démographiques</title>
</titleInfo>
<name type="personal">
<namePart type="given">Laura</namePart>
<namePart type="family">Alonzo-Canul</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benjamin</namePart>
<namePart type="family">Lecouteux</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">François</namePart>
<namePart type="family">Portet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Malgré des avancées importantes dans le domaine de la Reconnaissance Automatique de la Parole (RAP), les performances de reconnaissance restent inégales selon les groupes de locuteurs, ce qui pose des problèmes d’équité. Bien qu’il existe des méthodes pour réduire ces inégalités, elles dépendent de ressources externes au signal vocal, telles que des modèles de locuteur (speaker embeddings) ou des étiquettes démographiques textuelles, qui peuvent être indisponibles ou peu fiables. Dans ce travail, nous proposons une méthode pour améliorer l’équité dans la RAP qui ne dépend d’aucune de ces ressources. Notre approche utilise une méthode de clustering non supervisé à partir de représentations acoustiques classiques, auto-supervisées et hybrides. Nos expériences avec CommonV oice 16.1 démontrent que les modèles entraînés sur les clusters découverts améliorent les performances des groupes démographiques désavantagés tout en conservant des performances compétitives et en utilisant deux fois moins de données d’entraînement.</abstract>
<identifier type="citekey">alonzo-canul-etal-2025-vers</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-taln.47/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>780</start>
<end>790</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Vers l’entraînement de modèles de reconnaissance automatique de la parole auto-supervisés équitables sans étiquettes démographiques
%A Alonzo-Canul, Laura
%A Lecouteux, Benjamin
%A Portet, François
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 32ème Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : articles scientifiques originaux
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F alonzo-canul-etal-2025-vers
%X Malgré des avancées importantes dans le domaine de la Reconnaissance Automatique de la Parole (RAP), les performances de reconnaissance restent inégales selon les groupes de locuteurs, ce qui pose des problèmes d’équité. Bien qu’il existe des méthodes pour réduire ces inégalités, elles dépendent de ressources externes au signal vocal, telles que des modèles de locuteur (speaker embeddings) ou des étiquettes démographiques textuelles, qui peuvent être indisponibles ou peu fiables. Dans ce travail, nous proposons une méthode pour améliorer l’équité dans la RAP qui ne dépend d’aucune de ces ressources. Notre approche utilise une méthode de clustering non supervisé à partir de représentations acoustiques classiques, auto-supervisées et hybrides. Nos expériences avec CommonV oice 16.1 démontrent que les modèles entraînés sur les clusters découverts améliorent les performances des groupes démographiques désavantagés tout en conservant des performances compétitives et en utilisant deux fois moins de données d’entraînement.
%U https://aclanthology.org/2025.jeptalnrecital-taln.47/
%P 780-790
Markdown (Informal)
[Vers l’entraînement de modèles de reconnaissance automatique de la parole auto-supervisés équitables sans étiquettes démographiques](https://aclanthology.org/2025.jeptalnrecital-taln.47/) (Alonzo-Canul et al., JEP/TALN/RECITAL 2025)
ACL