@inproceedings{fily-etal-2024-mesure,
title = "Mesure du niveau de proximit{\'e} entre enregistrements audio et {\'e}valuation indirecte du niveau d`abstraction des repr{\'e}sentations issues d`un grand mod{\`e}le de langage",
author = "Fily, Maxime and
Wisniewski, Guillaume and
Guillaume, S{\'e}verine and
Adda, Gilles and
Michaud, Alexis",
editor = "Balaguer, Mathieu and
Bendahman, Nihed and
Ho-dac, Lydia-Mai and
Mauclair, Julie and
G Moreno, Jose and
Pinquier, Julien",
booktitle = "Actes des 35{\`e}mes Journ{\'e}es d'{\'E}tudes sur la Parole",
month = "7",
year = "2024",
address = "Toulouse, France",
publisher = "ATALA and AFPC",
url = "https://aclanthology.org/2024.jeptalnrecital-jep.12/",
pages = "112--121",
language = "fra",
abstract = "Nous explorons les repr{\'e}sentations vectorielles de la parole {\`a} partir d`un mod{\`e}le pr{\'e}-entra{\^i}n{\'e} pour d{\'e}terminer leur niveau d`abstraction par rapport au signal audio. Nous proposons une nouvelle m{\'e}thode non-supervis{\'e}e exploitant des donn{\'e}es audio ayant des m{\'e}tadonn{\'e}es soigneusement organis{\'e}es pour apporter un {\'e}clairage sur les informations pr{\'e}sentes dans les repr{\'e}sentations. Des tests ABX d{\'e}terminent si les repr{\'e}sentations obtenues via un mod{\`e}le de parole multilingue encodent une caract{\'e}ristique donn{\'e}e. Trois exp{\'e}riences sont pr{\'e}sent{\'e}es, portant sur la qualit{\'e} acoustique de la pi{\`e}ce, le type de discours, ou le contenu phon{\'e}tique. Les r{\'e}sultats confirment que les diff{\'e}rences au niveau de caract{\'e}ristiques linguistiques/extra-linguistiques d`enregistrements audio sont refl{\'e}t{\'e}es dans les repr{\'e}sentations de ceux-ci. Plus la quantit{\'e} d`audio par vecteur est importante, mieux elle permet de distinguer les caract{\'e}ristiques extra-linguistiques. Plus elle est faible, et mieux nous pouvons distinguer les informations d`ordre phon{\'e}tique/segmental. La m{\'e}thode propos{\'e}e ouvre de nouvelles pistes pour la recherche et les travaux comparatifs sur les langues peu dot{\'e}es."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="fily-etal-2024-mesure">
<titleInfo>
<title>Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d‘abstraction des représentations issues d‘un grand modèle de langage</title>
</titleInfo>
<name type="personal">
<namePart type="given">Maxime</namePart>
<namePart type="family">Fily</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Guillaume</namePart>
<namePart type="family">Wisniewski</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Séverine</namePart>
<namePart type="family">Guillaume</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Gilles</namePart>
<namePart type="family">Adda</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Alexis</namePart>
<namePart type="family">Michaud</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2024-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 35èmes Journées d’Études sur la Parole</title>
</titleInfo>
<name type="personal">
<namePart type="given">Mathieu</namePart>
<namePart type="family">Balaguer</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Nihed</namePart>
<namePart type="family">Bendahman</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Lydia-Mai</namePart>
<namePart type="family">Ho-dac</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julie</namePart>
<namePart type="family">Mauclair</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Jose</namePart>
<namePart type="family">G Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Julien</namePart>
<namePart type="family">Pinquier</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA and AFPC</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Nous explorons les représentations vectorielles de la parole à partir d‘un modèle pré-entraîné pour déterminer leur niveau d‘abstraction par rapport au signal audio. Nous proposons une nouvelle méthode non-supervisée exploitant des données audio ayant des métadonnées soigneusement organisées pour apporter un éclairage sur les informations présentes dans les représentations. Des tests ABX déterminent si les représentations obtenues via un modèle de parole multilingue encodent une caractéristique donnée. Trois expériences sont présentées, portant sur la qualité acoustique de la pièce, le type de discours, ou le contenu phonétique. Les résultats confirment que les différences au niveau de caractéristiques linguistiques/extra-linguistiques d‘enregistrements audio sont reflétées dans les représentations de ceux-ci. Plus la quantité d‘audio par vecteur est importante, mieux elle permet de distinguer les caractéristiques extra-linguistiques. Plus elle est faible, et mieux nous pouvons distinguer les informations d‘ordre phonétique/segmental. La méthode proposée ouvre de nouvelles pistes pour la recherche et les travaux comparatifs sur les langues peu dotées.</abstract>
<identifier type="citekey">fily-etal-2024-mesure</identifier>
<location>
<url>https://aclanthology.org/2024.jeptalnrecital-jep.12/</url>
</location>
<part>
<date>2024-7</date>
<extent unit="page">
<start>112</start>
<end>121</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d‘abstraction des représentations issues d‘un grand modèle de langage
%A Fily, Maxime
%A Wisniewski, Guillaume
%A Guillaume, Séverine
%A Adda, Gilles
%A Michaud, Alexis
%Y Balaguer, Mathieu
%Y Bendahman, Nihed
%Y Ho-dac, Lydia-Mai
%Y Mauclair, Julie
%Y G Moreno, Jose
%Y Pinquier, Julien
%S Actes des 35èmes Journées d’Études sur la Parole
%D 2024
%8 July
%I ATALA and AFPC
%C Toulouse, France
%G fra
%F fily-etal-2024-mesure
%X Nous explorons les représentations vectorielles de la parole à partir d‘un modèle pré-entraîné pour déterminer leur niveau d‘abstraction par rapport au signal audio. Nous proposons une nouvelle méthode non-supervisée exploitant des données audio ayant des métadonnées soigneusement organisées pour apporter un éclairage sur les informations présentes dans les représentations. Des tests ABX déterminent si les représentations obtenues via un modèle de parole multilingue encodent une caractéristique donnée. Trois expériences sont présentées, portant sur la qualité acoustique de la pièce, le type de discours, ou le contenu phonétique. Les résultats confirment que les différences au niveau de caractéristiques linguistiques/extra-linguistiques d‘enregistrements audio sont reflétées dans les représentations de ceux-ci. Plus la quantité d‘audio par vecteur est importante, mieux elle permet de distinguer les caractéristiques extra-linguistiques. Plus elle est faible, et mieux nous pouvons distinguer les informations d‘ordre phonétique/segmental. La méthode proposée ouvre de nouvelles pistes pour la recherche et les travaux comparatifs sur les langues peu dotées.
%U https://aclanthology.org/2024.jeptalnrecital-jep.12/
%P 112-121
Markdown (Informal)
[Mesure du niveau de proximité entre enregistrements audio et évaluation indirecte du niveau d’abstraction des représentations issues d’un grand modèle de langage](https://aclanthology.org/2024.jeptalnrecital-jep.12/) (Fily et al., JEP/TALN/RECITAL 2024)
ACL