Volltext-Downloads (blau) und Frontdoor-Views (grau)

Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten

  • Deutsch Mit Hilfe eines algorithmisch arbeitenden Verfahrens können Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden. Als Datengrundlage für diese Arbeit dienen kunsthistorische Lexikonartikel des Reallexikons zur Deutschen Kunstgeschichte. Die linguistisch, wörterbuchbasierte Open-Source-Software Lingo wurde in dieser Studie genutzt. Mit Lingo ist es möglich, auf Basis erstellter Wortmuster, bestimmte Wortfolgen aus elektronisch vorliegenden Daten algorithmisch zu identifizieren und zu extrahieren. Die erstellten Wortmuster basieren auf Wortklassen, mit denen die lexikalisierten Einträge in den Wörterbüchern getaggt sind und dadurch näher definiert werden. So wurden individuelle Wortklassen für Fachterminologie, Eigennamen, oder Adjektive vergeben. In der vorliegenden Arbeit werden zusätzlich Funktionswörter in die Musterbildung mit einbezogen. Dafür wurden neue Wortklassen definiert. Funktionswörter bestimmen Artikel, Konjunktionen und Präpositionen. Ziel war es fachterminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu extrahieren unter der gezielten Einbindung von Funktionswörtern. Anhand selbst gebildeter Kriterien, wurden die extrahierten Mehrwortgruppen qualitativ analysiert. Es konnte festgestellt werden, dass die Verwendung von Funktionswörtern fachterminologische Mehrwortgruppen erzeugt, die als potentielle Indexterme weitere Verwendung im Information Retrieval finden können.
  • Multiword groups can be detected and extracted from electronic resources not only manually but also with the help of an algorithmic approach. For this work, articles of the web version of the Reallexikon zur Deutschen Kunstgeschichte, an encyclopaedia for art history, were analysed. For this purpose, the open-source software, Lingo, which is based on linguistic methods and works with pre-defined dictionaries, was used. It is possible to identify and extract multiword groups algorithmically. This is based on the formation of word patterns. These word patterns are constituted of the specifically defined word classes. The different words in the dictionaries are assigned with special word classes, which add information to every entry. Different word classes were found for specialized terminology, proper names or adjectives. In the present study, additionally, function words were included in the formation of word patterns. Therefor, new word classes for these function words were defined. Functions words are articles, conjunctions and prepositions. The aim of this study was to identify and extract specific multiword groups from art historic data with the specific integration of function words in the formation of the word patterns. With self-defined criteria, the found multiword groups were qualitatively assessed. It could be shown, that the use of function words leads to the generation of specific multiword groups. These groups can be used as potential index terms in an information retrieval. Therefore it is beneficial to include function words in the formation of word patterns for the automatic extraction of multiword groups from art historic articles with Lingo.

Download full text files

Export metadata

Additional Services

Search Google Scholar

Statistics

frontdoor_oas
Metadaten
Author:Juliane Bredack
Document Type:Bachelor Thesis
Year of first Publication:2013
Date of final exam:2013/08/29
First Referee:Klaus Lepsky
Advisor:Winfried Gödert
Degree Program:Bibliothekswesen
Language:German
Page Number:66
GND Keyword:Information Extraction , Automatische Indexierung
Institutes:Institut für Informationswissenschaft der TH Köln
Access Rights:Frei zugänglich
URN:urn:nbn:de:hbz:79pbc-opus-8512
Licence (German):License LogoCreative Commons - Namensnennung-Weitergabe unter gleichen Bedingungen