h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Invariant image object recognition using Gaussian mixture densities



Verantwortlichkeitsangabevorgelegt von Jörg Dahmen

ImpressumAachen : Publikationsserver der RWTH Aachen University 2002

UmfangVIII, 112 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2001


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2001-10-29

Online
URN: urn:nbn:de:hbz:82-opus-3327
URL: https://publications.rwth-aachen.de/record/61617/files/Dahmen_Joerg.pdf

Einrichtungen

  1. Fakultät für Mathematik, Informatik und Naturwissenschaften (100000)

Inhaltliche Beschreibung (Schlagwörter)
Informatik (frei) ; Objekterkennung (frei) ; Parameterschätzung (frei) ; Bayes-Regel (frei) ; Zusammengesetzte Verteilung (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In dieser Arbeit wird ein statistisches Objekterkennungssystem für Bilder vorgestellt, welches auf der Verwendung von Gaußschen Mischverteilungen im Kontext der Bayes'schen Entscheidungsregel beruht. Zur Reduktion der freien Modellparameter wird dabei optional eine lineare Diskriminanzanalyse verwendet. Dieses Basissystem wird dann um die Berücksichtigung von Invarianzen erweitert. Zu diesem Zweck werden zunächst die vorhandenen Trainingsdaten geeignet vervielfacht. Diese Idee wird dann auf zu klassifizerende Testdaten übertragen und liefert die neue Virtual Test Data' Methode, die einige Vorzüge gegenüber Methoden der Klassifikatorkombination aufweist. Weiterhin wird eine Berücksichtigung globaler Invarianzen durch die Verwendung der sogenannten Tangentendistanz erreicht. Diese wird in der vorliegenden Arbeit in einen statistischen Rahmen eingebettet, was unter anderem zu einer modifizierten, zuverlässigeren Schätzung der Mischverteilungsparameter führt. Auerdem wird die Tangentendistanz um die Berücksichtigung lokaler Bildtransformationen erweitert (distorted tangent distance). Ein Großteil der Experimente wurde auf dem bekannten US Postal Service Standard-Korpus für die Erkennung handgeschriebener Ziffern durchgeführt. Außerdem wurde der vorgestellte Klassifikator erfolgreich angewandt auf die Klassifikation medizinischer Röntgenbilder, roter Blutzellen sowie auf die Columbia University Object Image Library (COIL-20) und die Chair-Image Database des Max-Planck Instituts. Die auf dem US Postal Service Korpus erzielte Fehlerrate von 2.2% ist dabei die bislang beste publizierte Fehlerrate auf dieser Datensammlung.

In this work, a statistical image object recognition system is presented, which is based on the use of Gaussian mixture densities in the context of the Bayesian decision rule. Optionally, to reduce the number of free model parameters, a linear discriminant analysis is applied. This baseline system is then extended with respect to the incorporation of invariances. To do so, we start by suitably multiplying the available reference images. This idea is then applied to the observations to be classified, too, yielding the novel Virtual Test Data' method, which has some desirable advantages over classical classifier combination approaches. Furthermore, global invariances are incorporated by using the so-called tangent distance. In this work, tangent distance is embedded into a statistical framework, which for instance leads to a modified, more reliable estimation of the mixture density parameters. Furthermore, tangent distance is extended to compensate not only for global, but also for local image transformations (distorted tangent distance). A large part of the experiments was performed on the well known US Postal Service standard corpus for handwritten digit recognition. Furthermore, the proposed classifier was successfully applied to the recognition of medical radiographs, red blood cells as well as to the Columbia University Object Image Library (COIL-20) and the Max-Planck Institute's Chair Image Database. The obtained error rate of 2.2% on the US Postal Service corpus is the best error rate published so far on this particular data set.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT013346252

Interne Identnummern
RWTH-CONV-123260
Datensatz-ID: 61617

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > No department assigned
Publication server / Open Access
Public records
Publications database
100000

 Record created 2013-01-28, last modified 2022-04-22


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)