h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Efficient clustering of big data streams = Effizientes Clustering von großen Datenströmen



VerantwortlichkeitsangabeMarwan Hassani

Ausgabe1. Aufl.

ImpressumAachen : Apprimus-Verl. 2015

UmfangIII, 244, XXV S. : graph. Darst.

ISBN978-3-86359-318-6

ReiheErgebnisse aus der Informatik ; 4


Zugl.: Aachen, Techn. Hochsch., Diss., 2015


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
; ;

Tag der mündlichen Prüfung/Habilitation
2015-01-26

Online
URN: urn:nbn:de:hbz:82-rwth-2015-027908
URL: https://publications.rwth-aachen.de/record/478963/files/478963.pdf
URL: https://publications.rwth-aachen.de/record/478963/files/478963.pdf?subformat=pdfa

Einrichtungen

  1. Lehrstuhl für Informatik 9 (Datenmanagement und -exploration) (122510)
  2. Fachgruppe Informatik (120000)
  3. Lehrstuhl für Informatik 11 (Software für eingebettete Systeme) (122810)

Inhaltliche Beschreibung (Schlagwörter)
Informatik (frei) ; clustering (frei) ; data streams (frei) ; efficient clustering (frei) ; big data (frei) ; sensor data mining (frei) ; subspace clustering (frei) ; anytime clustering (frei) ; subspace MOA (frei) ; SubCMM (frei) ; SubClusTree (frei) ; EDISKCO (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Aktuelle Entwicklungen in den Datenerfassungsgeräten und Datenspeichersystemen bieten ständig günstigere Möglichkeiten zur Sammlung und Speicherung von großen Datenmengen. Mit steigender Rechenleistung und effizienteren Datenbanken wird der Zugang zu einer Vielzahl komplexer Daten ermöglicht. Die Aufgabe des Data Mining ist das Extrahieren von nützlichen Mustern in diesen umfangreichen und unterschiedlichen Daten, um schließlich neue Erkenntnisse zu gewinnen. Diese Dissertation konzentriert sich auf die Clustering-Analyse, deren Ziel darin besteht, ähnliche Objekte in dieselben Cluster und unähnliche Objekte in verschiedene Cluster zu gruppieren. Während traditionelle Clustering-Algorithmen lediglich statische Daten betrachten, müssen heutige Algorithmen mit vielen, kontinuierlichen, möglicherweise unendlichen Datenströmen, die mit hoher Geschwindigkeit ankommen, umgehen.Aufgrund der immer höheren Dimensionalität in aktuellen Anwendungen, liefern traditionelle Clustering-Algorithmen, unter Berücksichtigung aller Dimensionen, nur selten aussagekräftige Cluster. Ein allgemeiner Ansatz zur Lösung dieses Problems ist die Subspace-Clustering-Analyse. Anstatt alle Dimensionen gemeinsam zu berücksichtigen, werden Cluster automatisch in verschiedenen Teilräumen unterschiedlicher Dimensionalität gesucht.In dieser Dissertation werden neue Methoden für die effiziente Subspace-Clustering-Analyse von hochdimensionalen Datenströme vorgestellt und mit dem Anytime-Paradigma kombiniert. Darüber hinaus werden effiziente und adaptive dichtebasierte Clustering-Algorithmen für hochdimensionale Datenströme entwickelt. Speziell für Sensordatenströme, werden neue algorithmische Lösungen für eine energieeffiziente netzwerkinterne Aggregation untersucht. Die in dieser Dissertation entwickelten Ansätze tragen maßgeblich zum aktuellen Forschungsstand im Bereich der effizienten Analyse von Datenströmen bei.

Recent advances in data collecting devices and data storage systems are continuously offering cheaper possibilities for gathering and storing increasingly bigger volumes of data. Similar improvements in the processing power and data bases enabled the accessibility to a large variety of complex data. Data mining is the task of extracting useful patterns and previously unknown knowledge out of this voluminous, various data. This thesis focuses on the data mining task of clustering, i.e. grouping objects into clusters such that similar objects are assigned to the same cluster while dissimilar ones are assigned to different clusters. While traditional clustering algorithms merely considered static data, today's applications and research issues in data mining have to deal with continuous, possibly infinite streams of data, arriving at high velocity. Web traffic data, click streams, surveillance data, sensor measurements, customer profile data and stock trading are only some examples of these daily-increasing applications. Since the growth of data sizes is accompanied by a similar raise in their dimensionalities, clusters cannot be expected to completely appear when considering all attributes together. Subspace clustering is a general approach that solved that issue by automatically finding the hidden clusters within different subsets of the attributes rather than considering all attributes together.In this thesis, novel methods for an efficient subspace clustering of high-dimensional data streams are presented and deeply evaluated. Approaches that efficiently combine the anytime clustering concept with the stream subspace clustering paradigm are intensively studied. Additionally, efficient and adaptive density-based clustering algorithms are presented for high-dimensional data streams. New algorithmic solutions for an energy-efficient in-sensor-network aggregation and a light-weighted clustering are presented for sensor streaming data. Novel open-source assessment framework and evaluation measures are presented for subspace stream clustering. Primarily, efficient models of advanced and complex clustering tasks are for the first time contributed for data streams.

OpenAccess:
Download fulltext PDF Download fulltext PDF (PDFA)
(additional files)

Dokumenttyp
Dissertation / PhD Thesis/Book

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT018680236

Interne Identnummern
RWTH-2015-02790
Datensatz-ID: 478963

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Document types > Books > Books
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
122510
120000
122810

 Record created 2015-06-08, last modified 2023-12-05