h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Preprocessing event data in process mining



Verantwortlichkeitsangabevorgelegt von Mohammadreza Fani Sani, M.Sc.

ImpressumAachen : RWTH Aachen University 2023

Umfang1 Online-Ressource : Illustrationen, Diagramme


Dissertation, RWTH Aachen University, 2023

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2023-08-10

Online
DOI: 10.18154/RWTH-2023-07982
URL: https://publications.rwth-aachen.de/record/963843/files/963843.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 9 (Process and Data Science) (122510)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
conformance checking approximation (frei) ; data preprocessing (frei) ; instance selection (frei) ; performance improvement (frei) ; process mining (frei) ; sampling (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Process Mining zielt darauf ab, die Lücke zwischen den klassischen datengetriebenen Verfahren und dem Geschäftsprozessmanagement zu verbinden. Es besteht aus drei Teilbereichen: Prozesserkennung, Übereinstimmungsprüfung und Prozesserweiterung. Für alle Teilbereiche wurden verschiedene Algorithmen und Methoden entwickelt, die in der Industrie immer mehr Anwendung finden. Viele der Process Mining-Algorithmen haben jedoch Schwierigkeiten im Umgang mit realen Ereignisdaten. Einige der Algorithmen sind bei der Auswertung von Ereignisdaten, die auch Ausreißer beinhalten könnten, eingeschränkt. Zudem sind einige existierende Lösungen sehr zeitaufwendig, wenn sie auf große Datenmengen angewendet werden. Um die genannten Probleme zu überwinden, stellen wir in dieser Arbeit einige Vorverarbeitungsalgorithmen vor, mit deren Hilfe aktuelle Prozesserkennungsalgorithmen besser funktionieren. Anstatt neue Process Mining-Algorithmen für jeden Teilbereich zu entwickeln, haben wir uns entschlossen, einige Vorverarbeitungsverfahren vorzustellen und die vorverarbeiteten Ereignisdaten an die bestehenden Algorithmen weiterzugeben. Diese Vorverarbeitungsalgorithmen wurden in ProM entwickelt, eine weit verbreitete wissenschaftliche Open-Source-Plattform. Für den Teilbereich der Prozesserkennung haben wir gezeigt, wie sensitiv mehrere Prozesserkennungsalgorithmen auf das Verhalten von Ausreißern reagieren. Im Anschluss daran haben wir mehrere Verfahren zur Vorverarbeitung vorgeschlagen, die Ausreißer erkennen und so vorverarbeitete Ereignisprotokolle mit einer verringerten Anzahl an Ausreißern liefern können. Durch die Anwendung dieser Methoden auf mehrere reale Ereignisdaten haben wir gezeigt, dass die Qualität der generierten Prozessmodelle im Zuge der Prozesserkennung verbessert werden kann. Um diese Leistung zusätzlich zu verbessern, schlagen wir außerdem einige Stichprobenmethoden vor, um die Größe der Ereignisdaten zu reduzieren. Wir haben einige Experimente mit realen Ereignisdaten durchgeführt, um diese vorgeschlagenen Methoden zu evaluieren. Die Ergebnisse dieser Experimente zeigen, dass wir in den meisten Fällen in der Lage sind, die Leistung der Prozesserkennung zu beschleunigen und gleichzeitig die Qualität der erkannten Prozessmodelle beizubehalten. Für den Teilbereich der Konformitätsüberprüfung existieren mehrere Techniken. Wir haben uns für die am weitesten verbreitete Technik entschieden, die als Alignment bzw. Übereinstimmung bezeichnet wird. Diese Technik ist sehr zeitaufwendig, insbesondere wenn die Anzahl der Aktivitäten und die Länge der Prozessinstanzen zunehmen. Um dieses Problem zu bewältigen, beweisen wir zunächst, dass wir in der Lage sind, das Problem der Übereinstimmungsberechnung auf das Problem der Wortähnlichkeit abzubilden. Hierdurch sind wir in der Lage, Prozessmodelle mit unterschiedlichen Notationen zu betrachten. Wir schlugen die Berechnung von Übereinstimmungen auf Basis von einigen Prozessinstanzen vor bzw. einer Teilmenge anstelle des gesamten Prozessmodells. Die vorgeschlagenen Techniken wurden mit realen Ereignisdaten und Prozessmodellen evaluiert. Es konnte gezeigt werden, dass sich die Performance des Übereinstimmungsprozesses verbessert bei der Verwendung von akkuraten approximierten Werten. Bei der Prozesserweiterung haben wir uns auf vorhersagende Überwachungsalgorithmen konzentriert, die in der Industrie immer mehr Anwendung finden. Die meisten Prognoseverfahren benötigen viel Zeit, um ein Prognosemodell auf großen Ereignisdaten zu trainieren. In realen Szenarien müssen wir diese Methoden mehrmals anwenden, um das Prognosemodell zu verfeinern. Um dieses Problem zu lösen, haben wir mehrere Methoden zur Auswahl von Prozessinstanzen vorgeschlagen, die die Größe der zu trainierenden Ereignisdaten reduzieren. Wir haben diese Methoden auf einige reale Ereignisdaten angewandt und sie für das Trainieren von Vorhersagemodellen hinsichtlich der nächsten Aktivität, der verbliebenden Laufzeit und des Prozessausgangs verwendet. Die Auswertung zeigt, dass wir mithilfe von selektierten Prozessinstanzen, die Qualität der Prognoseverfahren verbessern und dabei ihre Akkuratesse beibehalten können als bei der Verwendung des gesamten zugrundeliegenden Datensatzes.

Process mining aims to bridge the gap between classic data science techniques and business process management. It consists of three main sub-fields: process discovery, conformance checking, and process enhancement. Several algorithms have been proposed in each of these sub-fields and these methods are increasingly applied in the industry. However, many of the process mining algorithms have difficulties in dealing with real event data. Some of the algorithms have limitations in addressing event data that contains outliers and some of them require considerable time when they are applied to large data.In this thesis, to overcome the mentioned problems, we provide some preprocessing algorithms to help current process mining algorithms perform better. Instead of inventing new process mining algorithms for each main sub-field of process mining, we decided to propose some preprocessing methods and give the preprocessed event data to the current algorithms. These preprocessing algorithms are developed in ProM, which is an open-source platform widely used in academia. For the process discovery sub-field, we have shown how several process discovery algorithms are sensitive to outlier behaviors. Thereafter, we proposed several preprocessing methods that can detect outliers and provide preprocessed event logs containing less outlier behavior. By applying these methods to several real event data, we have shown that these methods are able to improve the quality of discovered process models using different process discovery algorithms. In addition, to enhance the performance of the process discovery procedure, we proposed some sampling methods to reduce the size of event data. We conducted some experiments on real event data to evaluate these proposed methods. The results of these experiments indicate that in most cases, we are able to improve the performance of the process discovery procedure while having a similar quality of discovered process models. There are several techniques that exist for the conformance checking sub-field. We targeted the most widely used technique in this sub-field, which is called alignment. This technique is very time-consuming, especially when the number of activities and length of process instances are increased. To overcome this problem, we prove that we are able to map the alignment computation problem to the word similarity problem, which lets us consider process models with different notations. Moreover, we proposed several alignment approximation techniques that are able to provide bounds for the approximated value. We proposed to compute the alignment of just a few process instances of the event data instead of all process instances or consider a small subset of the given process model instead of the whole process model. The result of applying the proposed alignment approximation methods on real event data and process models shows that we are able to improve the performance of the alignment computation process by having accurate approximated values. For process enhancement, we focused on predictive monitoring algorithms that are going to be applied extensively in the industry. Most prediction methods require considerable time to train a prediction model on large event data. In real scenarios, we need to apply these methods several times to tune the prediction model. To overcome this problem, we proposed several instance selection methods to reduce the size of training event data. We applied these methods to some real event data and used them for training prediction models of the next activity prediction, the remaining time prediction, and the outcome prediction applications. The results indicate that if we use suitable instance selection strategies, we are able to improve the performance of the prediction procedure while having similar accuracy in the trained prediction models compared to the case that the whole event data is used.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT030336827

Interne Identnummern
RWTH-2023-07982
Datensatz-ID: 963843

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
122510
120000

 Record created 2023-08-17, last modified 2023-10-24


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)