h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Combined clustering of graph and attribute data = Kombiniertes Clustering von Graph- und Attributdaten



VerantwortlichkeitsangabeBrigitte Boden

Ausgabe1. Aufl.

ImpressumAachen : Apprimus-Verl. 2014

UmfangIII, 232, XXI S. : graph. Darst.

ReiheEdition Wissenschaft Apprimus


Zugl.: Aachen, Techn. Hochsch., Diss., 2014

Druckausg. erschien als Bd. 3 in der Reihe: Ergebnisse aus der Informatik. - Zsfassung in dt. und engl. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2014-04-16

Online
URN: urn:nbn:de:hbz:82-opus-50665
URL: https://publications.rwth-aachen.de/record/444930/files/5066.pdf

Einrichtungen

  1. Fachgruppe Informatik (120000)
  2. Lehrstuhl für Informatik 9 (Datenmanagement und -exploration) (122510)

Inhaltliche Beschreibung (Schlagwörter)
Data Mining (Genormte SW) ; Graph (Genormte SW) ; Virtuelles Netz (Genormte SW) ; Cluster-Analyse (Genormte SW) ; Informatik (frei) ; Clustering (frei) ; Netzwerke (frei) ; graph (frei) ; network (frei) ; subspace (frei)

Thematische Einordnung (Klassifikation)
DDC: 004
ccs: H.2.8 * H.3.3 * I.5.3

Kurzfassung
In vielen modernen Anwendungen werden heutzutage immer größere Datenmengen gesammelt und gespeichert. Da moderne Speichersysteme immer höhere Speicherkapazitäten bei immer geringeren Kosten ermöglichen, sind Datenbanken, die große Mengen von Daten verschiedener Typen enthalten, heute allgegenwärtig. Der Begriff Data Mining beschreibt die Aufgabe, aus solchen Datenmengen nützliches und zuvor unbekanntes Wissen automatisiert zu extrahieren. Diese Arbeit befasst sich mit einer speziellen Aufgabe des Data Mining, dem Clustering. Dieses hat das Ziel, Objekte in Cluster zu gruppieren, so dass Objekte im selben Cluster einander ähnlich und Objekte in unterschiedlichen Clustern einander unähnlich sein sollen. Zwei der häufigsten Datentypen sind Vektordaten, die jedes Objekt durch einen Vektor von Attributen darstellen, und Graph-Daten, die Beziehungen zwischen Objekten als Kanten in Graphen darstellen. In vielen Fällen sind Daten beider Typen vorhanden; so können zusätzlich zu einem Graphen weitere Informationen über die Knoten oder auch die Kanten existieren, die als Attributvektoren dargestellt werden können. Das Ziel dieser Arbeit ist es, Clusteringverfahren zu entwickeln, die beide Datentypen simultan verwenden und so Cluster von Objekten finden, die sowohl im Graphen dicht verbunden als auch im Attributraum zueinander ähnlich sind. Da für hochdimensionale Vektordaten eine Ähnlichkeit in allen Attributen unwahrscheinlich ist, sollen unsere Verfahren gemäß dem Prinzip des Subspace Clustering auch Cluster finden, die nur in einer Teilmenge der Attribute die Ähnlichkeit erfüllen. In dieser Arbeit werden Clusteringverfahren für Graphen mit Knotenattributen, Graphen mit Kantenattributen und heterogene Netzwerke vorgestellt. Alle diese Ansätze haben das Ziel, eine möglichst unverzerrte Kombination der Datentypen und möglichst redundanzfreie Clusteringergebnisse zu erreichen.

In recent years, a rapidly increasing amount of data is collected and stored for various applications. As modern storage systems provide increasing disk space at decreasing costs, databases storing huge amounts of information of different types are ubiquitous. The task of automatically extracting useful and previously unknown knowledge out of such data is called data mining. This thesis focuses on the data mining task of clustering, i.e. grouping objects into clusters such that objects assigned to the same cluster are similar to each other, while objects assigned to different clusters are dissimilar. Two of the most common data types are vector data, where each object is represented as a vector containing different attributes of the object, and graph data, which represents relationships between different objects as edges in a graph. In many applications, data of both types is available simultaneously: for the vertices or the edges of a graph, additional information is available which can be described as an attribute vector. The aim of this thesis is to develop combined clustering approaches that use graph data and attribute data simultaneously in order to detect clusters that are densely connected in the graph and at the same time show similarity in the attribute space. As for high-dimensional vector data, clusters usually exist only in subspaces of the attribute space, we follow the principle of subspace clustering to enable the detection of clusters which show similarity only in a subset of the attributes. In this thesis, we introduce combined clustering approaches for graphs with vertex attributes, graphs with edge attributes and heterogeneous networks with attributed vertices. For all of those data types, our approaches focus on realizing an unbiased combination of graph and attribute data and avoiding redundancy in the clustering result.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-145244
Datensatz-ID: 444930

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
122510
120000

 Record created 2014-12-09, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)