Bedarfsgesteuerte Datenakquisition für Computermodelle

Language
de
Document Type
Doctoral Thesis
Issue Date
2016-02-10
Issue Year
2016
Authors
Baumgärtel, Philipp
Editor
Abstract

The increasing complexity of simulation models and the need for rapid development of new models require adaptive strategies for the management of simulation input data. Simulation data management methodologies need to cope with the high initial effort of schema design and semantic data integration. This initial effort is hindering the adoption of DBMS (Database Management Systems) for managing the input data of small simulation projects. However, as the complexity of most simulation projects increases over time, the benefit of employing a DBMS eventually outweighs the effort. To this end, a demand driven data management methodology is required that enables the use of a DBMS from the outset for simulation input data. This DBMS should be usable without the need for an initial schema design or semantic data integration. However, designing a domain specific schema and increasing the level of semantic integration should be possible on demand. Furthermore, as the data collection step for simulations is extensive, the required data quality of simulation output should be considered as a steering instrument for a demand driven data acquisition. This thesis presents a generic schema that enables the storage of arbitrary simulation input data for agent-based and System Dynamics simulations without requiring the design of a domain specific schema. This generic schema enables the storage of domain specific schema information on demand. Additionally, a data integration concept allows to increase the level of semantic integration in the generic schema on demand in a payas- you-go manner. The performance of several alternatives for implementing this generic schema is evaluated based on a synthetic workload. This thesis adopts the uncertainty of simulation output as the most important data quality dimension for simulations, as the uncertainty is an important concern when using simulation output for decision making. An existing method to propagate the uncertainty of input through simulations to estimate the uncertainty of the output is discussed in this thesis. This method is based on approximating simulations using Gaussian processes and forms the basis for a demand driven data acquisition solution. As simulation output may prove to be too uncertain for decision making, the data collection step has to be iterated multiple times in the worst case. Therefore, a bound on the output uncertainty, which can be defined by a domain expert, is used to find the most cost efficient data collection strategy that satisfies said bound. By defining a cost function for the data collection step, the problem of finding the most cost efficient data collection strategy is formalized and an analytic solution to this problem is given in this thesis. With this approach, data quality requirements for simulation output enable a demand driven data acquisition. The accuracy and efficiency of this approach are evaluated using several examples.

Abstract

Die steigende Komplexität von Simulationsvorhaben und die Notwendigkeit, neue Simulationsmodelle effizient entwickeln zu können, erfordern flexible Lösungen für das Verwalten von Simulationseingabedaten. Die strukturierte Verwaltung der Eingabedaten von Simulationen erzeugt jedoch einen hohen initialen Aufwand für Schemaentwurf und semantische Datenintegration. Aufgrund dieses initialen Aufwands wird in vielen Simulationsprojekten auf die Verwendung eines DBMS (Database Management Systems) verzichtet und stattdessen eine manuelle Verwaltung der Daten vorgezogen. Da jedoch die Komplexität von Simulationsprojekten über ihre Laufzeit ansteigt, rechtfertigen letztlich die Vorteile einer strukturierten Datenverwaltung mit einem DBMS den initialen Aufwand. Um die Verwendung einer strukturierten Datenverwaltung zu unterstützen, wird eine bedarfsgetriebene Methode für die Verwaltung von Simulationseingabedaten benötigt, die den initialen Aufwand reduziert und somit die Hürde für die Anwendung eines DBMS niedriger setzt. Dafür sollte der Einsatz eines DBMS ohne initialen Schemaentwurf und ohne semantische Datenintegration möglich sein. Allerdings sollten der Entwurf eines domänenspezifischen Schemas und eine schrittweise semantische Datenintegration bei Bedarf möglich sein. Weiterhin sollte die Sammlung von Eingabedaten gezielt gesteuert werden, da dieser Schritt ebenfalls einen hohen Aufwand erfordert. Da die Datenakquisition einen Einfluss auf die Güte der Simulationsergebnisse hat, kann die geforderte Ergebnisgüte als Steuerungsinstrument für eine bedarfsgetriebene kostenoptimale Datensammlung eingesetzt werden. In dieser Arbeit wird ein generisches Schema vorgestellt, das die Speicherung von Simulationseingabedaten für agentenbasierte und System-Dynamics-Simulationen ermöglicht, ohne initial ein domänenspezifisches Schema zu erfordern. Dieses generische Schema erlaubt bei Bedarf die Erstellung von zusätzlichen domänenspezifischen Schemata. Darüber hinaus wird ein Datenintegrationskonzept entwickelt, das bedarfsgetriebene semantische Integration im Rahmen des generischen Schemas ermöglicht. Basierend auf einer synthetischen Arbeitslast werden in dieser Arbeit verschiedene Implementierungsalternativen für das generische Schema evaluiert. Für die Messung der Ergebnisgüte von Simulationen wird in dieser Arbeit die statistische Unschärfe verwendet, da dieses Datenqualitätskriterium die Anwendbarkeit von Simulationsergebnissen für die Entscheidungsfindung beschreiben kann. Für die Abschätzung der Unschärfe der Simulationsausgabe wird eine aus der Literatur bekannte Methode umgesetzt, welche die Propagierung der Unschärfe der Eingabedaten durch die Simulation erlaubt. Diese Methode basiert auf der Approximation von Simulationen durch Gaußprozesse und dient als Grundlage für eine bedarfsgetriebene Datenakquisition. In klassischen Simulationsprojekten muss der Datensammlungsprozess iterativ stattfinden. Falls sich herausstellt, dass die Daten zu Simulationsergebnissen führen, die für die Entscheidungsfindung zu unscharf sind, müssen erneut Eingabedaten gesammelt werden. Aus diesem Grund wird in dieser Arbeit eine Methode vorgestellt, die basierend auf einer domänenspezifischen Obergrenze für die Unschärfe der Simulationsausgabe die kostenoptimale Datenakquisitionsstrategie findet. Diese optimale Strategie garantiert dabei das Einhalten der Obergrenze für die Unschärfe. Die Suche nach einer kostenoptimalen Datenakquisitionsstrategie wird in dieser Arbeit durch eine Kostenfunktion für die Datensammlung formalisiert. Anschließend wird für dieses Optimierungsproblem eine analytische Lösung vorgestellt. Dieser Ansatz ermöglicht eine bedarfsgetriebene Datenakquisition, wobei der Bedarf über die Obergrenze für die Unschärfe definiert wird. Die Genauigkeit und Effizienz dieses Ansatzes wird anhand einiger Beispiele evaluiert.

DOI
Faculties & Collections
Zugehörige ORCIDs