Dokument: Making Use of Category Structure for Multi-class Classification

Titel:Making Use of Category Structure for Multi-class Classification
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=14789
URN (NBN):urn:nbn:de:hbz:061-20100409-143019-2
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Le, Hieu Quang [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF
[Details]745,6 KB in einer Datei
[ZIP-Datei erzeugen]
Dateien vom 09.04.2010 / geändert 09.04.2010
Beitragende:Prof. Dr. Conrad, Stefan [Betreuer/Doktorvater]
Prof. Dr. Mauve, Martin [Gutachter]
Stichwörter:machine learning, data mining, classification, multi-class, multi-label, structured web source, deep web, feature selection, problem transformation, one-vs-all, multi-pair
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:Multi-class classification is the task of organizing data samples into multiple predefined categories. In this thesis, we address two different research problems of multi-class classification, one specific and the other general.

The first and specific problem is to categorize structured data sources on the Web. While prior works use all features, once extracted from search interfaces, we further refine the feature set. In our approach, we use only the text content of the search interfaces. We choose a subset of features, which is suited to classify web sources, by our feature selection technique with a new metric and selection scheme. Using the aggressive feature selection approach, together with a multi-class Support Vector Machine categorizer, we obtained high classification performance in an evaluation over real web data.

The second and general task is to develop a multi-label classification algorithm. In a multi-label classification problem, a data sample can be assigned to one or more categories. Given a multi-label problem of m categories, the commonly used One-Vs-All (OVA) approach transforms the problem into m independent binary classifications between each category and the rest (the category's complement). Based on the OVA approach, we propose a new method named Multi-Pair (MP). This MP method decomposes further each of the OVA binary classifications into multiple smaller and easier pair comparisons between a category and a subset of the category's complement. Furthermore, we incorporate the SCutFBR.1 thresholding strategy into the MP method. In our experiments with three benchmark text collections, the MP method outperforms the OVA approach in both cases with and without SCutFBR.1.

A common aspect of our works is that we make use of category structure in our feature selection and multi-label classification methods. This is the aspect that distinguishes our works from prior researches.

-----

Multi-Class-Klassifikation bezeichnet die Aufgabe, Datenobjekte mehreren vorgegebenen Kategorien zuzuordnen. In dieser Dissertation werden ein spezielles und ein allgemeines Klassifikationsproblem aus diesem Bereich behandelt.

Die erste Problemstellung besteht in der Kategorisierung strukturierter Datenquellen im Web. Während frühere Arbeiten alle Eigenschaften (Features) verwenden, die von den Anfrageschnittstellen der Datenquellen extrahiert werden können, verfeinern wir die Menge der Eigenschaften. In unserem Ansatz verwenden wir nur den Textinhalt der Anfrageschnittstellen. Wir wählen mit Hilfe unserer Feature-Selection-Technik, einer neuen Metrik und einem neuen Selection-Schema eine Teilmenge der Eigenschaften aus, die geeignet ist die Web-Quellen zu klassifizieren. Unter Einsatz dieses ``aggressive feature selection''-Ansatzes zusammen mit einem Multi-Class Support
Vector Machine-Kategorisierer erhalten wir eine hohe Klassifikationsgenauigkeit in der experimentellen Evaluation mit realen Daten aus dem Web.

Die zweite Aufgabe ist es einen Multi-Label-Klassifikationsalgorithmus zu entwickeln. In einem Multi-Label-Klassifikationsproblem kann ein Datensatz zu einer oder mehreren Kategorien zugeordnet werden. Für ein gegebenes Multi-Label--Problem mit m Kategorien transformiert der allgemein verwendete One-Vs-All-Ansatz (OVA) das Problem in m unabhängige binäre Klassifiaktionsprobleme zwischen jeder Kategorie und dem Rest (d.h. dem Komplement dieser Kategorie). Ausgehend vom OVA-Ansatz schlagen wir eine neue Methode vor, die wir Multi-Pair (MP) nennen. Diese MP-Methode zerlegt die binären OVA-Klassifikationen weiter in
kleinere und leichtere Vergleichspaare zwischen einer Kategorie und einer Teilmenge ihres Komplements. Darüber hinaus nutzen wir die SCutFBR.1-Thresholding-Strategie in unserer MP-Methode. In unseren Experimenten mit drei Benchmark-Text-Kollektonen ist die MP-Methode sowohl mit als auch ohne SCutFBR.1 dem OVA-Ansatz überlegen.

Das gemeinsame Merkmal unserer Arbeiten ist, dass wir die Struktur der Kategorien sowohl in unserem Feature-Selection- als auch in unserem Multi-Label-Klassifikatonsansatz ausnutzen. Hierin unterscheiden wir uns deutlich von anderen Forschungsarbeiten auf dem Gebiet.
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät
Dokument erstellt am:09.04.2010
Dateien geändert am:09.04.2010
Promotionsantrag am:01.03.2010
Datum der Promotion:07.04.2010
english
Benutzer
Status: Gast
Aktionen