@inproceedings{faass-schmid-2023-segmentierungs,
title = {Segmentierungs- und Annotationsverfahren f{\"u}r die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen},
author = "Faa{\ss}, Gertrud and
Schmid, Helmut",
editor = "Schneider, Roman and
Gertrud, Faa{\ss}",
booktitle = "Journal for Language Technology and Computational Linguistics, Vol. 36 No. 1",
month = may,
year = "2023",
address = "unknown",
publisher = "German Society for Computational Lingustics and Language Technology",
url = "https://aclanthology.org/2023.jlcl-1.8",
doi = "10.21248/jlcl.36.2023.241",
pages = "151--170",
abstract = {In der Computerlinguistik ist eine kaskadische Prozessierung von Texten {\"u}blich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zus{\"a}tzliche Spalten {--} also positionale Annotationen wie z.B. Wortarten und Lemmata f{\"u}r die Tokens in der ersten Spalte {--} erg{\"a}nzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gel{\"o}scht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese {\"a}u{\ss}erst ambig sein k{\"o}nnen, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengeh{\"o}ren. Dieser Beitrag fokussiert auf den Apostroph, der in vielf{\"a}ltiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten m{\"o}chten. Wir nutzen daf{\"u}r das komplette Lindenberg-Archiv des songkorpus.de-Repositoriums, kategorisieren die auftretenden Ph{\"a}nomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch - lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch f{\"u}r diese Texte angepasstes Training zu Genauigkeiten {\mbox{$\geq$}} 96{\%} f{\"u}hrt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verf{\"u}gung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verf{\"u}gbar auf github), die f{\"u}r {\"a}hnliche Texte verwendet werden kann.},
}
<?xml version="1.0" encoding="UTF-8"?>
<modsCollection xmlns="http://www.loc.gov/mods/v3">
<mods ID="faass-schmid-2023-segmentierungs">
<titleInfo>
<title>Segmentierungs- und Annotationsverfahren für die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen</title>
</titleInfo>
<name type="personal">
<namePart type="given">Gertrud</namePart>
<namePart type="family">Faaß</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Helmut</namePart>
<namePart type="family">Schmid</namePart>
<role>
<roleTerm authority="marcrelator" type="text">author</roleTerm>
</role>
</name>
<originInfo>
<dateIssued>2023-05</dateIssued>
</originInfo>
<typeOfResource>text</typeOfResource>
<relatedItem type="host">
<titleInfo>
<title>Journal for Language Technology and Computational Linguistics, Vol. 36 No. 1</title>
</titleInfo>
<name type="personal">
<namePart type="given">Roman</namePart>
<namePart type="family">Schneider</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<name type="personal">
<namePart type="given">Faaß</namePart>
<namePart type="family">Gertrud</namePart>
<role>
<roleTerm authority="marcrelator" type="text">editor</roleTerm>
</role>
</name>
<originInfo>
<publisher>German Society for Computational Lingustics and Language Technology</publisher>
<place>
<placeTerm type="text">unknown</placeTerm>
</place>
</originInfo>
<genre authority="marcgt">conference publication</genre>
</relatedItem>
<abstract>In der Computerlinguistik ist eine kaskadische Prozessierung von Texten üblich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zusätzliche Spalten – also positionale Annotationen wie z.B. Wortarten und Lemmata für die Tokens in der ersten Spalte – ergänzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gelöscht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese äußerst ambig sein können, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengehören. Dieser Beitrag fokussiert auf den Apostroph, der in vielfältiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten möchten. Wir nutzen dafür das komplette Lindenberg-Archiv des songkorpus.de-Repositoriums, kategorisieren die auftretenden Phänomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch - lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch für diese Texte angepasstes Training zu Genauigkeiten \geq 96% führt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verfügung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verfügbar auf github), die für ähnliche Texte verwendet werden kann.</abstract>
<identifier type="citekey">faass-schmid-2023-segmentierungs</identifier>
<identifier type="doi">10.21248/jlcl.36.2023.241</identifier>
<location>
<url>https://aclanthology.org/2023.jlcl-1.8</url>
</location>
<part>
<date>2023-05</date>
<extent unit="page">
<start>151</start>
<end>170</end>
</extent>
</part>
</mods>
</modsCollection>
%0 Conference Proceedings
%T Segmentierungs- und Annotationsverfahren für die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen
%A Faaß, Gertrud
%A Schmid, Helmut
%Y Schneider, Roman
%Y Gertrud, Faaß
%S Journal for Language Technology and Computational Linguistics, Vol. 36 No. 1
%D 2023
%8 May
%I German Society for Computational Lingustics and Language Technology
%C unknown
%F faass-schmid-2023-segmentierungs
%X In der Computerlinguistik ist eine kaskadische Prozessierung von Texten üblich. Dabei werden diese zuerst segmentiert (tokenisiert), d.h. Tokens und ggf. Satzgrenzen werden erkannt. Dabei entsteht meist eine Liste bzw. eine einspaltige Tabelle, die sukzessive durch weitere Prozessierungschritte um zusätzliche Spalten – also positionale Annotationen wie z.B. Wortarten und Lemmata für die Tokens in der ersten Spalte – ergänzt wird. Bei der Tokenisierung werden alle Spatien (Leerzeichen) gelöscht. Schon immer problematisch waren dabei Interpunktionszeichen, da diese äußerst ambig sein können, aber auch mehrteilige Namen, die Leerzeichen enthalten und eigentlich zusammengehören. Dieser Beitrag fokussiert auf den Apostroph, der in vielfältiger Weise in den Texten Udo Lindenbergs eingesetzt wird sowie auf mehrteilige Namen, die wir als Tokens erhalten möchten. Wir nutzen dafür das komplette Lindenberg-Archiv des songkorpus.de-Repositoriums, kategorisieren die auftretenden Phänomene, erstellen einen Goldstandard und entwickeln ein teils regel-, teils auf maschinellem Lernen basierendes Segmentierungswerkzeug, das insbesondere die auftretenden Apostrophe, aber auch - lexikonbasiert - mehrteilige Namen nach unseren Vorstellungen erkennt und tokenisiert. Im Anschluss trainieren wir den RNN-Tagger (Schmid, 2019) und zeigen auf, dass ein spezifisch für diese Texte angepasstes Training zu Genauigkeiten \geq 96% führt. Dabei entsteht nicht nur ein Goldstandard des annotierten Korpus, das dem Songkorpus-Repositorium zur Verfügung gestellt wird, sondern auch eine angepasste Version des RNN-Taggers (verfügbar auf github), die für ähnliche Texte verwendet werden kann.
%R 10.21248/jlcl.36.2023.241
%U https://aclanthology.org/2023.jlcl-1.8
%U https://doi.org/10.21248/jlcl.36.2023.241
%P 151-170
Markdown (Informal)
[Segmentierungs- und Annotationsverfahren für die Texte Udo Lindenbergs: Apostrophe und andere Herausforderungen](https://aclanthology.org/2023.jlcl-1.8) (Faaß & Schmid, JLCL 2023)
ACL