@inproceedings{alkan-etal-2023-etude,
title = "{\'E}tude de m{\'e}thodes d{'}augmentation de donn{\'e}es pour la reconnaissance d{'}entit{\'e}s nomm{\'e}es en astrophysique",
author = "Alkan, Atilla Kaan and
Grouin, Cyril and
Zweigenbaum, Pierre",
editor = "Servan, Christophe and
Vilnat, Anne",
booktitle = "Actes de CORIA-TALN 2023. Actes de la 30e Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux -- articles longs",
month = "6",
year = "2023",
address = "Paris, France",
publisher = "ATALA",
url = "https://aclanthology.org/2023.jeptalnrecital-long.1",
pages = "1--13",
abstract = "Dans cet article nous {\'e}tudions l{'}int{\'e}r{\^e}t de l{'}augmentation de donn{\'e}es pour le rep{\'e}rage d{'}entit{\'e}s nomm{\'e}es en domaine de sp{\'e}cialit{\'e} : l{'}astrophysique. Pour cela, nous comparons trois m{\'e}thodes d{'}augmentation en utilisant deux r{\'e}cents corpus annot{\'e}s du domaine : DEAL et TDAC, tous deux en anglais. Nous avons g{\'e}n{\'e}r{\'e}s les donn{\'e}es artificielles en utilisant des m{\'e}thodes {\`a} base de r{\`e}gles et {\`a} base de mod{\`e}les de langue. Les donn{\'e}es ont ensuite {\'e}t{\'e} ajout{\'e}es de mani{\`e}re it{\'e}rative pour affiner un syst{\`e}me de d{\'e}tection d{'}entit{\'e}s. Les r{\'e}sultats permettent de constater un effet de seuil : ajouter des donn{\'e}es artificielles au-del{\`a} d{'}une certaine quantit{\'e} ne pr{\'e}sente plus d{'}int{\'e}r{\^e}t et peut d{\'e}grader la F-mesure. Sur les deux corpus, le seuil varie selon la m{\'e}thode employ{\'e}e, et en fonction du mod{\`e}le de langue utilis{\'e}. Cette {\'e}tude met {\'e}galement en {\'e}vidence que l{'}augmentation de donn{\'e}es est plus efficace sur de petits corpus, ce qui est coh{\'e}rent avec d{'}autres {\'e}tudes ant{\'e}rieures. En effet, nos exp{\'e}riences montrent qu{'}il est possible d{'}am{\'e}liorer de 1 point la F-mesure sur le corpus DEAL, et jusqu{'}{\`a} 2 points sur le corpus TDAC.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="alkan-etal-2023-etude">
<titleInfo>
<title>Étude de méthodes d’augmentation de données pour la reconnaissance d’entités nommées en astrophysique</title>
</titleInfo>
<name type="personal">
<namePart type="given">Atilla</namePart>
<namePart type="given">Kaan</namePart>
<namePart type="family">Alkan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Cyril</namePart>
<namePart type="family">Grouin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pierre</namePart>
<namePart type="family">Zweigenbaum</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-06</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs</title>
</titleInfo>
<name type="personal">
<namePart type="given">Christophe</namePart>
<namePart type="family">Servan</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Anne</namePart>
<namePart type="family">Vilnat</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Paris, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Dans cet article nous étudions l’intérêt de l’augmentation de données pour le repérage d’entités nommées en domaine de spécialité : l’astrophysique. Pour cela, nous comparons trois méthodes d’augmentation en utilisant deux récents corpus annotés du domaine : DEAL et TDAC, tous deux en anglais. Nous avons générés les données artificielles en utilisant des méthodes à base de règles et à base de modèles de langue. Les données ont ensuite été ajoutées de manière itérative pour affiner un système de détection d’entités. Les résultats permettent de constater un effet de seuil : ajouter des données artificielles au-delà d’une certaine quantité ne présente plus d’intérêt et peut dégrader la F-mesure. Sur les deux corpus, le seuil varie selon la méthode employée, et en fonction du modèle de langue utilisé. Cette étude met également en évidence que l’augmentation de données est plus efficace sur de petits corpus, ce qui est cohérent avec d’autres études antérieures. En effet, nos expériences montrent qu’il est possible d’améliorer de 1 point la F-mesure sur le corpus DEAL, et jusqu’à 2 points sur le corpus TDAC.</abstract>
<identifier type="citekey">alkan-etal-2023-etude</identifier>
<location>
<url>https://aclanthology.org/2023.jeptalnrecital-long.1</url>
</location>
<part>
<date>2023-6</date>
<extent unit="page">
<start>1</start>
<end>13</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Étude de méthodes d’augmentation de données pour la reconnaissance d’entités nommées en astrophysique
%A Alkan, Atilla Kaan
%A Grouin, Cyril
%A Zweigenbaum, Pierre
%Y Servan, Christophe
%Y Vilnat, Anne
%S Actes de CORIA-TALN 2023. Actes de la 30e Conférence sur le Traitement Automatique des Langues Naturelles (TALN), volume 1 : travaux de recherche originaux – articles longs
%D 2023
%8 June
%I ATALA
%C Paris, France
%G French
%F alkan-etal-2023-etude
%X Dans cet article nous étudions l’intérêt de l’augmentation de données pour le repérage d’entités nommées en domaine de spécialité : l’astrophysique. Pour cela, nous comparons trois méthodes d’augmentation en utilisant deux récents corpus annotés du domaine : DEAL et TDAC, tous deux en anglais. Nous avons générés les données artificielles en utilisant des méthodes à base de règles et à base de modèles de langue. Les données ont ensuite été ajoutées de manière itérative pour affiner un système de détection d’entités. Les résultats permettent de constater un effet de seuil : ajouter des données artificielles au-delà d’une certaine quantité ne présente plus d’intérêt et peut dégrader la F-mesure. Sur les deux corpus, le seuil varie selon la méthode employée, et en fonction du modèle de langue utilisé. Cette étude met également en évidence que l’augmentation de données est plus efficace sur de petits corpus, ce qui est cohérent avec d’autres études antérieures. En effet, nos expériences montrent qu’il est possible d’améliorer de 1 point la F-mesure sur le corpus DEAL, et jusqu’à 2 points sur le corpus TDAC.
%U https://aclanthology.org/2023.jeptalnrecital-long.1
%P 1-13
Markdown (Informal)
[Étude de méthodes d’augmentation de données pour la reconnaissance d’entités nommées en astrophysique](https://aclanthology.org/2023.jeptalnrecital-long.1) (Alkan et al., JEP/TALN/RECITAL 2023)
ACL