@inproceedings{kent-rachmat-2025-analyse,
title = "Analyse de la litt{\'e}rature sur les strat{\'e}gies d{'}augmentation de donn{\'e}es dans des contextes {\`a} faible ressources",
author = "Kent Rachmat, Benedictus",
editor = "Bechet, Fr{\'e}d{\'e}ric and
Chifu, Adrian-Gabriel and
Pinel-sauvagnat, Karen and
Favre, Benoit and
Maes, Eliot and
Nurbakova, Diana",
booktitle = "Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27{\`e}me Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL)",
month = "6",
year = "2025",
address = "Marseille, France",
publisher = "ATALA {\textbackslash}{\textbackslash}{\&} ARIA",
url = "https://aclanthology.org/2025.jeptalnrecital-recital.2/",
pages = "14--30",
language = "fra",
abstract = "Les grands mod{\`e}les de langage (LLMs) ont r{\'e}volutionn{\'e} le traitement automatique des langues (TAL), mais leur succ{\`e}s demeure largement limit{\'e} aux domaines g{\'e}n{\'e}ralistes disposant de ressources abondantes. En revanche, l{'}application des LLMs {\`a} des domaines sp{\'e}cialis{\'e}s {\`a} faibles ressources soul{\`e}ve des d{\'e}fis majeurs li{\'e}s {\`a} la raret{\'e} des donn{\'e}es d{'}entra{\^i}nement, {\`a} la d{\'e}rive de domaine et aux contraintes terminologiques strictes. Cette revue propose un {\'e}tat de l{'}art des approches actuelles pour le question-r{\'e}ponse (QA) en contexte sp{\'e}cialis{\'e} et {\`a} faibles ressources avec les LLMs. Nous commen{\c{c}}ons par analyser la couverture et la repr{\'e}sentativit{\'e} des jeux de donn{\'e}es de QA sp{\'e}cialis{\'e}s en les comparant {\`a} de grands ensembles de r{\'e}f{\'e}rence, que nous appelons ParentQA . Sur la base de cette analyse, nous passons en revue les strat{\'e}gies centr{\'e}es sur les donn{\'e}es visant {\`a} accro{\^i}tre la diversit{\'e} des entr{\'e}es, notamment {\`a} travers des techniques d{'}augmentation. Nous abordons {\'e}galement les m{\'e}triques d'{\'e}valuation adapt{\'e}es aux t{\^a}ches sp{\'e}cialis{\'e}es et les consid{\'e}rations {\'e}thiques associ{\'e}es. En cartographiant les m{\'e}thodologies existantes et en identifiant les questions de recherche ouvertes, cette {\'e}tude vise {\`a} orienter les futurs travaux sur l{'}adaptation des LLMs pour une utilisation robuste et responsable dans des environnements contraints en ressources et sp{\'e}cifiques {\`a} un domaine."
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="kent-rachmat-2025-analyse">
<titleInfo>
<title>Analyse de la littérature sur les stratégies d’augmentation de données dans des contextes à faible ressources</title>
</titleInfo>
<name type="personal">
<namePart type="given">Benedictus</namePart>
<namePart type="family">Kent Rachmat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2025-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">fra</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Frédéric</namePart>
<namePart type="family">Bechet</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Adrian-Gabriel</namePart>
<namePart type="family">Chifu</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Karen</namePart>
<namePart type="family">Pinel-sauvagnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Benoit</namePart>
<namePart type="family">Favre</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Eliot</namePart>
<namePart type="family">Maes</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Diana</namePart>
<namePart type="family">Nurbakova</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA \textbackslash\textbackslash& ARIA</publisher>
<place>
<placeTerm type="text">Marseille, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Les grands modèles de langage (LLMs) ont révolutionné le traitement automatique des langues (TAL), mais leur succès demeure largement limité aux domaines généralistes disposant de ressources abondantes. En revanche, l’application des LLMs à des domaines spécialisés à faibles ressources soulève des défis majeurs liés à la rareté des données d’entraînement, à la dérive de domaine et aux contraintes terminologiques strictes. Cette revue propose un état de l’art des approches actuelles pour le question-réponse (QA) en contexte spécialisé et à faibles ressources avec les LLMs. Nous commençons par analyser la couverture et la représentativité des jeux de données de QA spécialisés en les comparant à de grands ensembles de référence, que nous appelons ParentQA . Sur la base de cette analyse, nous passons en revue les stratégies centrées sur les données visant à accroître la diversité des entrées, notamment à travers des techniques d’augmentation. Nous abordons également les métriques d’évaluation adaptées aux tâches spécialisées et les considérations éthiques associées. En cartographiant les méthodologies existantes et en identifiant les questions de recherche ouvertes, cette étude vise à orienter les futurs travaux sur l’adaptation des LLMs pour une utilisation robuste et responsable dans des environnements contraints en ressources et spécifiques à un domaine.</abstract>
<identifier type="citekey">kent-rachmat-2025-analyse</identifier>
<location>
<url>https://aclanthology.org/2025.jeptalnrecital-recital.2/</url>
</location>
<part>
<date>2025-6</date>
<extent unit="page">
<start>14</start>
<end>30</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Analyse de la littérature sur les stratégies d’augmentation de données dans des contextes à faible ressources
%A Kent Rachmat, Benedictus
%Y Bechet, Frédéric
%Y Chifu, Adrian-Gabriel
%Y Pinel-sauvagnat, Karen
%Y Favre, Benoit
%Y Maes, Eliot
%Y Nurbakova, Diana
%S Actes des 18e Rencontres Jeunes Chercheurs en RI (RJCRI) et 27ème Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RECITAL)
%D 2025
%8 June
%I ATALA \textbackslash\textbackslash& ARIA
%C Marseille, France
%G fra
%F kent-rachmat-2025-analyse
%X Les grands modèles de langage (LLMs) ont révolutionné le traitement automatique des langues (TAL), mais leur succès demeure largement limité aux domaines généralistes disposant de ressources abondantes. En revanche, l’application des LLMs à des domaines spécialisés à faibles ressources soulève des défis majeurs liés à la rareté des données d’entraînement, à la dérive de domaine et aux contraintes terminologiques strictes. Cette revue propose un état de l’art des approches actuelles pour le question-réponse (QA) en contexte spécialisé et à faibles ressources avec les LLMs. Nous commençons par analyser la couverture et la représentativité des jeux de données de QA spécialisés en les comparant à de grands ensembles de référence, que nous appelons ParentQA . Sur la base de cette analyse, nous passons en revue les stratégies centrées sur les données visant à accroître la diversité des entrées, notamment à travers des techniques d’augmentation. Nous abordons également les métriques d’évaluation adaptées aux tâches spécialisées et les considérations éthiques associées. En cartographiant les méthodologies existantes et en identifiant les questions de recherche ouvertes, cette étude vise à orienter les futurs travaux sur l’adaptation des LLMs pour une utilisation robuste et responsable dans des environnements contraints en ressources et spécifiques à un domaine.
%U https://aclanthology.org/2025.jeptalnrecital-recital.2/
%P 14-30
Markdown (Informal)
[Analyse de la littérature sur les stratégies d’augmentation de données dans des contextes à faible ressources](https://aclanthology.org/2025.jeptalnrecital-recital.2/) (Kent Rachmat, JEP/TALN/RECITAL 2025)
ACL