Buchkapitel CC BY-NC-ND 4.0
Veröffentlicht

Segrada: eine Semantische Graphdatenbank als Werkzeug für Citizen Science

Segrada, eine Graphendatenbank zur Aufbereiten geisteswissenschaftlicher, semantischer Informationen, versteht sich als Werkzeug der wissenschaftlichen Arbeit: Gerade in der Geschichte und anderen Geisteswissenschaften ist das Erfassen von Daten aus verschiedenen Quellen oft zeitaufwändig, fehleranfällig und für Dritte nur schwer nachzuvollziehen. Segrada bricht die Informationen in kleinere Einheiten auf, welche untereinander verknüpft werden können. Die Daten liegen daher in einer formal eindeutigeren Weise vor, welche sowohl von Maschinen als auch von Menschen leicht lesbar ist. Die Validität der Datensätze wird durch Quellenangaben gewährleistet. Außerdem können die Quellen selbst in der Datenbank gespeichert und durchsuchbar gemacht werden. Da gerade in den Geisteswissenschaften Daten oft bereits in ihren Quellen ungenau sind, erlaubt die Datenbank alternative Schreibweisen von Namen und Orten, aber auch ungenaue Datumsangaben. Darüber hinaus kann Segrada dank der Validierung der Quellen und Daten sowie dank des Hinterlegens mit Informationen zu demjenigen, der die Daten einspeist, als Hilfswerkzeug zur systematischen Erfassung und Aufbereitung von Daten aus Citizen Science-Projekten dienen, deren Ursprung jederzeit zurückverfolgt werden kann. Auf Basis einer älteren Forschungsdatenbank entwickelte der Autor Segrada. Personen, Orte, Ereignisse und andere Informationseinheiten werden als „Knoten“ in der Datenbank erfasst und untereinander durch semantische Verbindungen verknüpfbar. Sowohl Knoten als auch Verknüpfungen, Kanten genannt, dürfen dabei mit Geo- und Zeitdaten (Perioden bzw. Zeitpunkte) versehen werden. Als technische Basis dient eine einfach zu startende Webapplikation auf Java-Basis. Sie kann als Programm, als Server, in einem Serverumfeld oder als Docker-Container ausgeführt werden. Dadurch ist der Einsatz sowohl für Einzelpersonen als auch für Gruppen möglich. Die Anwendung ist plattformunabhängig und läuft unter Windows, OS X, Linux und BSD. Das Programm ist unter der Apache Open Source-Lizenz veröffentlicht und der Source Code auf Github einsehbar.

First and foremost, Segrada is a scientific tool: In historical research and other humanities, data aggregation is tedious, error prone and hard to reproduce later on. The database enables the researcher to gather data incrementally into formal bits of information. Consequently, data is defined more rigidly and computable by both machines and humans. Bits of data can be annotated by source references in order to validate these. Moreover source documents can be saved into the database and are full text searchable, like the rest of the database. Fuzzy data is a constant challenge in the humanities. Sources can be ambiguous, spellings can differ. Segrada compensates this need by allowing to add alternative spellings and fuzzy time data. Moreover, thanks to the validation of sources and data, and thanks to the rear fastening with information about the person who feeds the data, Segrada can serve as auxiliary tool for the systematic collection and processing of data from citizen science projects, whose origin can always be traced. Based on an earlier research database, the author of this paper has developed Segrada, a graph database to process semantic information in the humanities. People, locations, events and other pieces of information can be created as “nodes” within the database that can be linked to each other. Different connection types are possible. Both nodes and connections, called or edges of the graph, can contain additional geographic and time data. The technical basis of Segrada is an easy to start Web-based Java application. The application can be run on the desktop, as a standalone server, within a Servlet or as Docker container. Consequently, Segrada can be used by single researchers or by whole groups. The application is not platform dependent and can be run on Windows, OS X, Linux or BSD. It has been published under the Apache open source license with the source code accessible on Github.

Vorschau

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.

Rechte

Nutzung und Vervielfältigung: