h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Modeling for part-based visual object detection based on local features = Modellbildung für komponentenbasierte Bildobjekterkennung mittels lokaler Bildmerkmale



Verantwortlichkeitsangabevorgelegt von Mark Asbach

ImpressumAachen : Shaker 2011

UmfangIX, 98 S. : Ill., graph. Darst.

ReiheAachen series on multimedia and communications engineering ; 8


Zugl.: Aachen, Techn. Hochsch., Diss., 2011

Druckausgabe: 2011. - Onlineausgabe: 2012


Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2011-09-28

Online
URN: urn:nbn:de:hbz:82-opus-39849
URL: https://publications.rwth-aachen.de/record/62876/files/3984.pdf

Einrichtungen

  1. Lehrstuhl und Institut für Nachrichtentechnik (613210)

Inhaltliche Beschreibung (Schlagwörter)
Merkmalsextraktion (Genormte SW) ; Maschinelles Sehen (Genormte SW) ; Objekterkennung (Genormte SW) ; Maschinelles Lernen (Genormte SW) ; Modellierung (Genormte SW) ; Ingenieurwissenschaften (frei) ; lokale Bildmerkmale (frei) ; komponentenbasierte Bildobjekterkennung (frei) ; Modellbildung (frei) ; local features (frei) ; part-based visual object detection (frei) ; modeling (frei)

Thematische Einordnung (Klassifikation)
DDC: 620
ccs: I.2.10 * I.4.8 * I.5.2

Kurzfassung
Die Identifikation von spezifischen Objekten in Bildsignalen erfolgt heute noch weitgehend durch aufwändige manuelle Metadaten-Annotation. Für bestimmte Objektklassen, z.B. Detektion menschlicher Gesichter, existieren auch automatisierte Verfahren, die häufig auf dem holistischen (ganzheitlichen) Prinzip beruhen (Beispiel „sliding window“-Suche nach Viola/Jones). Diese Verfahren sind nicht tolerant genug gegenüber Objektverformung, Teilverdeckung und Rotation aus der Bildebene heraus. Komponentenbasierte Ansätze stellen einen möglichen Lösungsweg für diese Problematik dar: Dabei wird ein Objekt nicht als eine einzige starre Region modelliert, sondern durch eine Anzahl flexibel verbundener, nur in sich starrer Komponenten (Teile) beschrieben. Ein solches Objektmodell besteht meist aus einer festen Anzahl von Komponenten, die jeweils eine spezifische visuelle Erscheinung haben und in einer definierten Geometrie angeordnet sind. In der Literatur wurden bisher, wiederum vielfach im Bereich der Gesichtsdetektion, mehrere handoptimierte Komponentenmodelle vorgestellt. Im Bereich der Multimedia-Datensuche sind allerdings generalisierte Verfahren wünschenswert, die sich prinzipiell auf beliebige Objekttypen anwenden lassen. Bislang fehlte aber ein Verfahren zur automatischen Definition der Komponenten. In der vorliegenden Arbeit wird ein komponentenbasierter Ansatz zur Objektdetektion vorgestellt, der es erlaubt, die Anzahl, Position und Ausdehnung der Komponenten mit Hilfe maschineller Lernverfahren aus Trainingsdaten abzuleiten. Durch die Modellierung eines Bildes als Ansammlung sogenannter „lokaler Bildmerkmale“ können Häufungen dieser Merkmale im Skalenraum ermittelt werden. Die Häufungspunkte mit der höchsten Aussagekraft über die Lokalisierung des Objekts werden anhand statischer Merkmale ermittelt und als Objektkomponenten verwendet. Die Modellbildung des vorgestellten Ansatzes ist prinzipiell universell, und wird am Beispiel der Gesichtsdetektion verifiziert, wofür entsprechend annotierte Datensätze verfügbar sind. Dabei werden lokale Bildmerkmale durch einen Harris-Laplace Corner Detector identifiziert, ihre visuelle Erscheinung mit Hilfe eines vom Viola-Jones-Verfahren adoptierten Klassifikators (boosted cascade of simple features) maschinell gelernt, sowie die Geometrie und die erlaubte Geometrieabweichung anhand eines Trainingsdaten-Clusterings automatisch bestimmt. Kreuzvalidierung mit Hilfe von drei bekannten Gesichtsdatenbanken zeigt, dass die mit der hier implementierten automatisierten Modellbildung erzielte Erkennungsrate in der Größenordnung handoptimierter komponentenbasierter Ansätze liegt. Damit bleibt sie aber noch unter der von Viola und Jones mit ihrem holistischen Verfahren erreichten Performanz. Der hier vorgestellte Detektionsprozess bietet durch die Verwendung lokaler Bildmerkmale mehrere Vorteile gegenüber bisherigen Modellen. Hierdurch wird u.a. die automatische Identifikation geeigneter Komponenten für die gegebene Objekterkennungsaufgabe möglich. Da die Detektion generischer lokaler Bildmerkmale zusammen mit der anschließenden, objektspezifischen Klassifikation der visuellen Erscheinung einen zweistufigen Detektionsprozess bildet, können die Ergebnisse der ersten Stufe bei der Detektion verschiedener Objekte im selben Bild wiederverwendet werden. Prinzipiell können vorab extrahierte Bildmerkmale zusammen mit verschiedenen Klassifikatoren verwendet werden, was hohe Flexibilität u.a. für verteilte Anwendungen bietet.

Today, automatic object detection in image data is usually performed using machine-learning approaches relying on a holistic object model and the sliding window principle. A major concern with holistic object detection is the insufficient tolerance to deformation, partial occlusion, and rotation. Part-based object detection can potentially overcome these limitations. However, the creation of part-based object models currently requires a human designer specifying the number, locations and extents of object parts. In this thesis, a novel method is introduced, that allows deriving part-based object models solely from training data. It automatically establishes the number as well as the locations and extents of the object parts. This is possible by employing a semi-supervised machine learning technique on local image features to detect clusters of feature locations that are subsequently used as parts of the object model. The modeling process is exemplarily implemented for human faces. An evaluation on three known datasets shows that the automatically generated object models achieve recall and precision rates comparable to state of the art manually defined part-based models.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-124370
Datensatz-ID: 62876

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Electrical Engineering and Information Technology (Fac.6)
Publication server / Open Access
Public records
Publications database
613210

 Record created 2013-01-28, last modified 2022-05-17


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)