@inproceedings{terzic-2019-parsing,
title = "Parsing des textes journalistiques en serbe {\`a} l{'}aide du logiciel Talismane (Parsing of newspaper texts in {S}erbian using Talismane)",
author = "Terzic, Dusica",
editor = "Morin, Emmanuel and
Rosset, Sophie and
Zweigenbaum, Pierre",
booktitle = "Actes de la Conf{\'e}rence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume III : RECITAL",
month = "7",
year = "2019",
address = "Toulouse, France",
publisher = "ATALA",
url = "https://aclanthology.org/2019.jeptalnrecital-recital.10",
pages = "591--604",
abstract = "Cet article pr{\'e}sente la cr{\'e}ation d{'}un treebank journalistique serbe, ParCoJour. Il est compos{\'e} de 30K tokens et dot{\'e} de trois couches d{'}annotation : {\'e}tiquetage morphosyntaxique, lemmatisation et annotation syntaxique. Une fois construit, ParCoJour a {\'e}t{\'e} utilis{\'e} dans trois exp{\'e}riences afin d{'}{\'e}valuer l{'}impact du domaine textuel sur le parsing du serbe en comparant les performances de Talismane, un syst{\`e}me par apprentissage automatique, sur deux types de corpus, journalistique et litt{\'e}raire : 1) parsing du corpus journalistique avec un mod{\`e}le entra{\^\i}n{\'e} sur le corpus journalistique ; 2) parsing du corpus journalistique avec un mod{\`e}le entra{\^\i}n{\'e} sur le corpus litt{\'e}raire ; 3) parsing du corpus litt{\'e}raire avec un mod{\`e}le entra{\^\i}n{\'e} sur le corpus journalistique. Les r{\'e}sultats sont compar{\'e}s {\`a} ceux o{\`u} les deux corpus relevaient du domaine litt{\'e}raire. Le changement de domaine textuel dans la deuxi{\`e}me et la troisi{\`e}me exp{\'e}rience entra{\^\i}ne une baisse des performances, mais les r{\'e}sultats de parsing restent satisfaisants.",
language = "French",
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="terzic-2019-parsing">
<titleInfo>
<title>Parsing des textes journalistiques en serbe à l’aide du logiciel Talismane (Parsing of newspaper texts in Serbian using Talismane)</title>
</titleInfo>
<name type="personal">
<namePart type="given">Dusica</namePart>
<namePart type="family">Terzic</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2019-07</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<language>
<languageTerm type="text">French</languageTerm>
<languageTerm type="code" authority="iso639-2b">fre</languageTerm>
</language>
<relatedItem type="host">
<titleInfo>
<title>Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume III : RECITAL</title>
</titleInfo>
<name type="personal">
<namePart type="given">Emmanuel</namePart>
<namePart type="family">Morin</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Sophie</namePart>
<namePart type="family">Rosset</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Pierre</namePart>
<namePart type="family">Zweigenbaum</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>ATALA</publisher>
<place>
<placeTerm type="text">Toulouse, France</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>Cet article présente la création d’un treebank journalistique serbe, ParCoJour. Il est composé de 30K tokens et doté de trois couches d’annotation : étiquetage morphosyntaxique, lemmatisation et annotation syntaxique. Une fois construit, ParCoJour a été utilisé dans trois expériences afin d’évaluer l’impact du domaine textuel sur le parsing du serbe en comparant les performances de Talismane, un système par apprentissage automatique, sur deux types de corpus, journalistique et littéraire : 1) parsing du corpus journalistique avec un modèle entraîné sur le corpus journalistique ; 2) parsing du corpus journalistique avec un modèle entraîné sur le corpus littéraire ; 3) parsing du corpus littéraire avec un modèle entraîné sur le corpus journalistique. Les résultats sont comparés à ceux où les deux corpus relevaient du domaine littéraire. Le changement de domaine textuel dans la deuxième et la troisième expérience entraîne une baisse des performances, mais les résultats de parsing restent satisfaisants.</abstract>
<identifier type="citekey">terzic-2019-parsing</identifier>
<location>
<url>https://aclanthology.org/2019.jeptalnrecital-recital.10</url>
</location>
<part>
<date>2019-7</date>
<extent unit="page">
<start>591</start>
<end>604</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Parsing des textes journalistiques en serbe à l’aide du logiciel Talismane (Parsing of newspaper texts in Serbian using Talismane)
%A Terzic, Dusica
%Y Morin, Emmanuel
%Y Rosset, Sophie
%Y Zweigenbaum, Pierre
%S Actes de la Conférence sur le Traitement Automatique des Langues Naturelles (TALN) PFIA 2019. Volume III : RECITAL
%D 2019
%8 July
%I ATALA
%C Toulouse, France
%G French
%F terzic-2019-parsing
%X Cet article présente la création d’un treebank journalistique serbe, ParCoJour. Il est composé de 30K tokens et doté de trois couches d’annotation : étiquetage morphosyntaxique, lemmatisation et annotation syntaxique. Une fois construit, ParCoJour a été utilisé dans trois expériences afin d’évaluer l’impact du domaine textuel sur le parsing du serbe en comparant les performances de Talismane, un système par apprentissage automatique, sur deux types de corpus, journalistique et littéraire : 1) parsing du corpus journalistique avec un modèle entraîné sur le corpus journalistique ; 2) parsing du corpus journalistique avec un modèle entraîné sur le corpus littéraire ; 3) parsing du corpus littéraire avec un modèle entraîné sur le corpus journalistique. Les résultats sont comparés à ceux où les deux corpus relevaient du domaine littéraire. Le changement de domaine textuel dans la deuxième et la troisième expérience entraîne une baisse des performances, mais les résultats de parsing restent satisfaisants.
%U https://aclanthology.org/2019.jeptalnrecital-recital.10
%P 591-604
Markdown (Informal)
[Parsing des textes journalistiques en serbe à l’aide du logiciel Talismane (Parsing of newspaper texts in Serbian using Talismane)](https://aclanthology.org/2019.jeptalnrecital-recital.10) (Terzic, JEP/TALN/RECITAL 2019)
ACL