An investigation on the power of unlabeled data
- Diese Dissertation untersucht den Nutzen von ungelabelten Daten für das Lernen von binären Klassifikatoren und enthält drei wesentliche Beiträge: 1) Es wird bewiesen, dass Semi-Supervised Learning die Anzahl der zum Lernen benötigten Labels verglichen mit Supervised Learning nur um einen konstanten Faktor verringert, falls die Konzeptklasse endlich ist. Ein schwächeres Resultat gilt für Klassen mit endlicher VC-Dimension. Für Klassen unendlicher VC-Dimension wird hingegen gezeigt, dass die Reduktion beliebig groß sein kann. 2) Die Anzahl an benötigten Labels von Supervised Lernern im Co-Training-Framework mit bedingter Unabhängigkeit wird eingehend untersucht und mit der von Semi-Supervised Lernern verglichen. Es ergeben sich Verbindungen zur Analyse von agnostischen aktiven Lernern und dem Lernen aus positiven Beispielen. 3) Semi-Supervised und aktive Lerner werden erfolgreich zum Lösen von Audio-Captchas angewandt.
Author: | Malte DarnstädtGND |
---|---|
URN: | urn:nbn:de:hbz:294-43994 |
Referee: | Hans Ulrich SimonORCiDGND, Alexander MayORCiDGND |
Document Type: | Doctoral Thesis |
Language: | English |
Date of Publication (online): | 2015/09/30 |
Date of first Publication: | 2015/09/30 |
Publishing Institution: | Ruhr-Universität Bochum, Universitätsbibliothek |
Granting Institution: | Ruhr-Universität Bochum, Fakultät für Mathematik |
Date of final exam: | 2015/02/26 |
Creating Corporation: | Fakultät für Mathematik |
Tag: | Stichprobengrösse |
GND-Keyword: | Maschinelles Lernen; Teilüberwachtes Lernen; Stichprobenumfang; Captcha; Algorithmische Lerntheorie |
Institutes/Facilities: | Lehrstuhl Mathematik & Informatik |
Dewey Decimal Classification: | Naturwissenschaften und Mathematik / Mathematik |
faculties: | Fakultät für Mathematik |
Licence (German): | Keine Creative Commons Lizenz - es gelten der Veröffentlichungsvertrag und das deutsche Urheberrecht |