@inproceedings{boulanger-etal-2023-tri,
title = "Tri-apprentissage g{\'e}n{\'e}ratif : g{\'e}n{\'e}ration de donn{\'e}es pour de la reconnaissance d{'}entit{\'e}es nomm{\'e}es semi-supervis{\'e}",
author = "Boulanger, Hugo and
Lavergne, Thomas and
Rosset, Sophie",
editor = "Servan, Christophe and
Vilnat, Anne",
booktitle = "Actes de CORIA-TALN 2023. Actes de la 30e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-long.6",
pages = "68--79",
abstract = "Le d{\'e}veloppement de solutions de traitement automatique de la langue pour de nouvelles t{\^a}ches n{\'e}cessite des donn{\'e}es, dont l{'}obtention est co{\^u}teuses. L{'}acc{\`e}s aux donn{\'e}es peut {\^e}tre limit{\'e} en raison de la nature sensible des donn{\'e}es. La plupart des travaux r{\'e}cents ont exploit{\'e} de grands mod{\`e}les pr{\'e}-entra{\^\i}n{\'e}s pour initialiser des versions sp{\'e}cialis{\'e}es de ceux-ci. La sp{\'e}cialisation d{'}un tel mod{\`e}le n{\'e}cessite toujours une quantit{\'e} {\'e}lev{\'e}e de donn{\'e}es {\'e}tiquet{\'e}es sp{\'e}cifiques {\`a} la t{\^a}che cible. Nous utilisons l{'}apprentissage semi-supervis{\'e} pour entra{\^\i}ner des mod{\`e}les dans un contexte o{\`u} le nombre d{'}exemples {\'e}tiquet{\'e}s est limit{\'e} et le nombre de donn{\'e}es non {\'e}tiquet{\'e}es est nul. Nous {\'e}tudions plusieurs m{\'e}thodes pour g{\'e}n{\'e}rer le corpus non {\'e}tiquet{\'e} n{\'e}cessaire {\`a} l{'}utilisation de l{'}apprentissage semi-supervis{\'e}. Nous introduisons les m{\'e}thodes de g{\'e}n{\'e}ration entre les {\'e}pisodes d{'}entra{\^\i}nement et utilisons les mod{\`e}les entra{\^\i}n{\'e}s pour filtrer les exemples g{\'e}n{\'e}r{\'e}s. Nous testons cette g{\'e}n{\'e}ration avec le tri-apprentissage et l{'}auto-apprentissage sur des corpus Anglais et Fran{\c{c}}ais.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="boulanger-etal-2023-tri">
<titleInfo>
<title>Tri-apprentissage génératif : génération de données pour de la reconnaissance d’entitées nommées semi-supervisé</title>
</titleInfo>
<name type="personal">
<namePart type="given">Hugo</namePart>
<namePart type="family">Boulanger</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Thomas</namePart>
<namePart type="family">Lavergne</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sophie</namePart>
<namePart type="family">Rosset</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Servan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anne</namePart>
<namePart type="family">Vilnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Le développement de solutions de traitement automatique de la langue pour de nouvelles tâches nécessite des données, dont l’obtention est coûteuses. L’accès aux données peut être limité en raison de la nature sensible des données. La plupart des travaux récents ont exploité de grands modèles pré-entraînés pour initialiser des versions spécialisées de ceux-ci. La spécialisation d’un tel modèle nécessite toujours une quantité élevée de données étiquetées spécifiques à la tâche cible. Nous utilisons l’apprentissage semi-supervisé pour entraîner des modèles dans un contexte où le nombre d’exemples étiquetés est limité et le nombre de données non étiquetées est nul. Nous étudions plusieurs méthodes pour générer le corpus non étiqueté nécessaire à l’utilisation de l’apprentissage semi-supervisé. Nous introduisons les méthodes de génération entre les épisodes d’entraînement et utilisons les modèles entraînés pour filtrer les exemples générés. Nous testons cette génération avec le tri-apprentissage et l’auto-apprentissage sur des corpus Anglais et Français.</abstract>
<identifier type="citekey">boulanger-etal-2023-tri</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-long.6</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>68</start>
<end>79</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Tri-apprentissage génératif : génération de données pour de la reconnaissance d’entitées nommées semi-supervisé
%A Boulanger, Hugo
%A Lavergne, Thomas
%A Rosset, Sophie
%Y Servan, Christophe
%Y Vilnat, Anne
%S Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F boulanger-etal-2023-tri
%X Le développement de solutions de traitement automatique de la langue pour de nouvelles tâches nécessite des données, dont l’obtention est coûteuses. L’accès aux données peut être limité en raison de la nature sensible des données. La plupart des travaux récents ont exploité de grands modèles pré-entraînés pour initialiser des versions spécialisées de ceux-ci. La spécialisation d’un tel modèle nécessite toujours une quantité élevée de données étiquetées spécifiques à la tâche cible. Nous utilisons l’apprentissage semi-supervisé pour entraîner des modèles dans un contexte où le nombre d’exemples étiquetés est limité et le nombre de données non étiquetées est nul. Nous étudions plusieurs méthodes pour générer le corpus non étiqueté nécessaire à l’utilisation de l’apprentissage semi-supervisé. Nous introduisons les méthodes de génération entre les épisodes d’entraînement et utilisons les modèles entraînés pour filtrer les exemples générés. Nous testons cette génération avec le tri-apprentissage et l’auto-apprentissage sur des corpus Anglais et Français.
%U https://aclanthology.org/2023.jeptalnrecital-long.6
%P 68-79
Markdown (Informal)
[Tri-apprentissage génératif : génération de données pour de la reconnaissance d’entitées nommées semi-supervisé](https://aclanthology.org/2023.jeptalnrecital-long.6) (Boulanger et al., JEP/TALN/RECITAL 2023)
ACL