A Query Repository With Evolutionary Policy-Based Classification of SQL Queries

Language
en
Document Type
Doctoral Thesis
Issue Date
2022-09-26
Issue Year
2022
Authors
Schwab, Peter K.
Editor
Abstract

Every day, organizations following a collect-everything mentality generate, process, and store an ever-increasing amount of data. With the increasing amount of data available, it is becoming more difficult and complex to analyze it in a way that creates beneficial knowledge. This analysis is usually done via queries, i. e. the queries themselves also contain knowledge in turn.

The goal of this dissertation is to make the knowledge contained in the queries available. Often, this knowledge is not immediately apparent but is tacit expert knowledge that usually exists only in the heads of a few domain experts. As a solution, this dissertation presents QRep, a query repository that can manage SQL queries and the knowledge they contain in the form of query metadata. The functionality provided by QRep goes far beyond that of a conventional database system. It can derive multiple query metadata automatically. For metadata that do not allow this, it provides a mechanism to semi-automatically derive the underlying query knowledge via evolutionary domain-specific policy rules.

This dissertation first provides a conceptual data model for the management of query metadata. Second, it describes the mapping of this schema partly to a relational schema and a multi-relational directed property graph. To enable a performant retrieval of query metadata, QRep internally accesses tree-structured metadata via graph traversals and tabular metadata via SQL. For simple, uniform user access to the query metadata, QRep provides a domain-specific language that can be easily adjusted and extended. Its fundamental parts are so-called basic query-processing patterns, which can be nested and combined via Boolean operators to form arbitrary query-processing patterns.

The domain-specific language is one component of the policy rules. These rules enable the externalization of tacit expert knowledge regarding queries. Furthermore, they do not require profound technical knowledge and can be defined evolutionarily at runtime. A policy rule is based on a conditional rule and automatically classifies queries matching a processing pattern according to its consequent part. For this, QRep incrementally aligns the basic patterns in the policy rule with the metadata of the query and stores the classification result as additional metadata if this alignment evaluates to True.

The pilot implementation of QRep features a conventional three-tier client-server architecture and provides a user-friendly graphical user interface. It can be deployed in a minimally-intrusive way to arbitrary existing IT landscapes to facilitate integration into existing projects. The average latency for deriving metadata for a query is 366 ms, and 906 ms for aligning a query with all policy rules. For long-running queries, these latencies are negligible compared to their execution time.

Abstract

Viele Organisationen offenbaren heutzutage die Mentalität, jedwede verfügbaren Daten zu sammeln. Dadurch erzeugen, verarbeiten und speichern sie täglich eine immer weiter wachsende Menge an Daten. Mit ihrer zunehmenden Menge wird es immer schwieriger und komplexer, diese Daten so zu analysieren, dass nützliches Wissen entsteht. Die Datenanalyse erfolgt in der Regel über Abfragen, wobei die Abfragen selbst wiederum auch Wissen über Datenzugriff und -Verarbeitung enthalten.

Das Ziel dieser Dissertation ist es, das in den Abfragen enthaltene Wissen allgemein verfügbar zu machen. Oft ist dieses Wissen nicht sofort ersichtlich, sondern es handelt sich um sogenanntes stilles Expertenwissen, das im konkreten Einzelfall meist nur in den Köpfen einiger weniger Fachleute existiert. Als Lösung wird hier QRep vorgestellt, ein Abfrage-Repositorium, das SQL-Abfragen und das darin enthaltene Wissen in Form von Abfrage-Metadaten verwalten kann. Die Funktionalität von QRep geht weit über die eines herkömmlichen Datenbanksystems hinaus. Es kann eine Vielzahl von Abfrage-Metadaten automatisch ableiten. Für Metadaten, bei denen dies nicht möglich ist, bietet es einen Mechanismus zur halbautomatischen Ableitung des zugrundeliegenden Abfragewissens über evolutionäre, domänenspezifische Regeln.

In dieser Arbeit wird zunächst ein konzeptionelles Datenmodell für die Verwaltung von Abfrage-Metadaten vorgestellt und auf ein relationales Schema sowie auf einen multi-relationalen, gerichteten Graphen abgebildet. Um einen performanten Abruf von Abfrage-Metadaten zu ermöglichen, greift QRep intern auf baumförmig strukturierte Metadaten mittels Graph-Traversalen und auf tabellarische Metadaten mittels SQL zu. Für einen einfachen und einheitlichen Benutzerzugriff auf die Abfrage-Metadaten bietet QRep eine domänenspezifische Sprache, die leicht angepasst und erweitert werden kann. Sie besteht aus einfachen Abfrage-Verarbeitungs-Mustern, die verschachtelt und über boolesche Operatoren zu beliebig komplexen Mustern kombiniert werden können.

Die domänenspezifische Sprache ist eine Komponente der Regeln. Diese ermöglichen die Externalisierung von stillem Expertenwissen in Bezug auf SQL-Abfragen, erfordern kein tiefes technisches Wissen und können zur Laufzeit evolutionär definiert werden. Eine solche Wenn-Dann-Regel klassifiziert Abfragen automatisch gemäß ihrem Aktionsteil, die dem Verarbeitungsmuster in ihrer Bedingung entsprechen. Dazu gleicht QRep inkrementell die Muster in der Regel mit den Metadaten der Abfrage ab und speichert das Klassifizierungsergebnis als zusätzliche Metadaten, wenn dieser Abgleich als erfolgreich bewertet wird.

Die Pilot-Implementierung von QRep folgt einer konventionellen dreistufigen Client-Server-Architektur und stellt eine leicht handhabbare graphische Benutzerschnittstelle zur Verfügung. Die Integration in bestehende Projekte ist für beliebige IT-Landschaften möglich und erfordert nur minimale Anpassungen. Die durchschnittliche Latenzzeit für die Ableitung von Metadaten für eine Abfrage beträgt 366 ms. Für den den Abgleich einer Abfrage mit allen Regeln beträgt sie im Durchschnitt 906 ms. Bei langlaufenden Abfragen ist diese Latenz verglichen mit deren Ausführungszeit vernachlässigbar.

DOI
Faculties & Collections
Zugehörige ORCIDs