@inproceedings{nishimwe-2023-normalisation,
title = "Normalisation lexicale de contenus g{\'e}n{\'e}r{\'e}s par les utilisateurs sur les r{\'e}seaux sociaux",
author = "Nishimwe, Lydia",
editor = "Candito, Marie and
Gerald, Thomas and
Moreno, Jos{\'e} G",
booktitle = "Actes de CORIA-TALN 2023. Actes des 16e Rencontres Jeunes Chercheurs en RI (RJCRI) et 25e Rencontre des {\'E}tudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (R{\'E}CITAL)",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-rjc.11",
pages = "160--183",
abstract = "L{'}essor du traitement automatique des langues (TAL) se vit dans un monde o{\`u} l{'}on produit de plus en plus de contenus en ligne. En particulier sur les r{\'e}seaux sociaux, les textes publi{\'e}s par les internautes sont remplis de ph{\'e}nom{\`e}nes « non standards » tels que les fautes d{'}orthographe, l{'}argot, les marques d{'}expressivit{\'e}, etc. Ainsi, les mod{\`e}les de TAL, en grande partie entra{\^\i}n{\'e}s sur des donn{\'e}es « standards », voient leur performance diminuer lorsqu{'}ils sont appliqu{\'e}s aux contenus g{\'e}n{\'e}r{\'e}s par les utilisateurs (CGU). L{'}une des approches pour att{\'e}nuer cette d{\'e}gradation est la normalisation lexicale : les mots non standards sont remplac{\'e}s par leurs formes standards. Dans cet article, nous r{\'e}alisons un {\'e}tat de l{'}art de la normalisation lexicale des CGU, ainsi qu{'}une {\'e}tude exp{\'e}rimentale pr{\'e}liminaire pour montrer les avantages et les difficult{\'e}s de cette t{\^a}che.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="nishimwe-2023-normalisation">
<titleInfo>
<title>Normalisation lexicale de contenus générés par les utilisateurs sur les réseaux sociaux</title>
</titleInfo>
<name type="personal">
<namePart type="given">Lydia</namePart>
<namePart type="family">Nishimwe</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes des 16e Rencontres Jeunes Chercheurs en RI (RJCRI) et 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Marie</namePart>
<namePart type="family">Candito</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Thomas</namePart>
<namePart type="family">Gerald</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">José</namePart>
<namePart type="given">G</namePart>
<namePart type="family">Moreno</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>L’essor du traitement automatique des langues (TAL) se vit dans un monde où l’on produit de plus en plus de contenus en ligne. En particulier sur les réseaux sociaux, les textes publiés par les internautes sont remplis de phénomènes « non standards » tels que les fautes d’orthographe, l’argot, les marques d’expressivité, etc. Ainsi, les modèles de TAL, en grande partie entraînés sur des données « standards », voient leur performance diminuer lorsqu’ils sont appliqués aux contenus générés par les utilisateurs (CGU). L’une des approches pour atténuer cette dégradation est la normalisation lexicale : les mots non standards sont remplacés par leurs formes standards. Dans cet article, nous réalisons un état de l’art de la normalisation lexicale des CGU, ainsi qu’une étude expérimentale préliminaire pour montrer les avantages et les difficultés de cette tâche.</abstract>
<identifier type="citekey">nishimwe-2023-normalisation</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-rjc.11</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>160</start>
<end>183</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Normalisation lexicale de contenus générés par les utilisateurs sur les réseaux sociaux
%A Nishimwe, Lydia
%Y Candito, Marie
%Y Gerald, Thomas
%Y Moreno, José G.
%S Actes de CORIA-TALN 2023. Actes des 16e Rencontres Jeunes Chercheurs en RI (RJCRI) et 25e Rencontre des Étudiants Chercheurs en Informatique pour le Traitement Automatique des Langues (RÉCITAL)
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F nishimwe-2023-normalisation
%X L’essor du traitement automatique des langues (TAL) se vit dans un monde où l’on produit de plus en plus de contenus en ligne. En particulier sur les réseaux sociaux, les textes publiés par les internautes sont remplis de phénomènes « non standards » tels que les fautes d’orthographe, l’argot, les marques d’expressivité, etc. Ainsi, les modèles de TAL, en grande partie entraînés sur des données « standards », voient leur performance diminuer lorsqu’ils sont appliqués aux contenus générés par les utilisateurs (CGU). L’une des approches pour atténuer cette dégradation est la normalisation lexicale : les mots non standards sont remplacés par leurs formes standards. Dans cet article, nous réalisons un état de l’art de la normalisation lexicale des CGU, ainsi qu’une étude expérimentale préliminaire pour montrer les avantages et les difficultés de cette tâche.
%U https://aclanthology.org/2023.jeptalnrecital-rjc.11
%P 160-183
Markdown (Informal)
[Normalisation lexicale de contenus générés par les utilisateurs sur les réseaux sociaux](https://aclanthology.org/2023.jeptalnrecital-rjc.11) (Nishimwe, JEP/TALN/RECITAL 2023)
ACL