Volltext-Downloads (blau) und Frontdoor-Views (grau)

GiesKaNe: Korpusaufbau zwischen Standard und Innovation

  • Der vorliegende Beitrag erörtert am Beispiel des aktuell im Aufbau befindlichen Korpus GiesKaNe (= Gie[ßen]Ka[ssel]Ne[uhochdeutsch]) grundlegende Fragen nach dem Verhältnis von Standard und Innovation bei der Erweiterung der Korpuslandschaft durch neue Korpora. Bei jedem neu zu erstellenden Korpus stellt sich die Frage, inwieweit man den bereits etablierten Standards folgt, oder ob es legitim oder vielleicht sogar notwendig ist, neue Modelle der Annotation linguistischer Kategorien zu entwickeln. In diesem Sinne bespricht der Beitrag die Grenzen einer reinen Modellübernahme mit Bezug auf das POS-Tagging in anderen historischen Referenzkorpora und mit Bezug auf TIGER als Baumbank für das Gegenwartsdeutsche. Um trotz der Arbeit mit einer innovativen Alternative dem Prinzip der Interoperabilität gerecht zu werden, wird im Beitrag die Arbeit mit maschinellem Lernen ins Spiel gebracht. Dieses ermöglicht es, aus den vorhandenen Textoberflächenmerkmalen und den vorliegenden Annotationen auch alternative Annotationsmodelle abzuleiten und mittels einer Mehrebenenannotation anzubieten, sodass ein Korpus den Anforderungen an interoperable Nutzbarkeit und wissenschaftlichen Erkenntnisfortschritt gleichermaßen gerecht werden kann.

Download full text files

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Volker EmmrichGND, Mathilde HennigGND
URN:urn:nbn:de:bsz:mh39-116070
DOI:https://doi.org/10.1515/9783111085708-010
ISBN:978-3-11-108570-8
ISSN:0537-7900
Parent Title (German):Korpora in der germanistischen Sprachwissenschaft. Mündlich, schriftlich, multimedial
Series (Serial Number):Jahrbuch / Leibniz-Institut für Deutsche Sprache (IDS) (2022)
Publisher:de Gruyter
Place of publication:Berlin/Boston
Editor:Arnulf Deppermann, Christian Fandrych, Marc Kupietz, Thomas Schmidt
Document Type:Part of a Book
Language:German
Year of first Publication:2023
Date of Publication (online):2023/04/14
Publishing Institution:Leibniz-Institut für Deutsche Sprache (IDS) [Zweitveröffentlichung]
Publicationstate:Zweitveröffentlichung
Reviewstate:(Verlags)-Lektorat
Tag:Baumbank; Korpus GiesKaNe; Korpusaufbau; Mehrebenenannotation; POS-Tagging; Referenzkorpus; TIGER
GND Keyword:Annotation; Deutsch; Interoperabilität; Korpus <Linguistik>; Maschinelles Lernen
First Page:199
Last Page:223
DDC classes:400 Sprache / 430 Deutsch
Open Access?:ja
Linguistics-Classification:Korpuslinguistik
Licence (German):License LogoUrheberrechtlich geschützt