h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Image retrieval, object recognition, and discriminative models = Bildsuche, Objekterkennung und Diskriminative Modelle



Verantwortlichkeitsangabevorgelegt von Thomas Deselaers

ImpressumAachen : Publikationsserver der RWTH Aachen University 2008

UmfangXII, 208 S. : Ill., graph. Darst.


Aachen, Techn. Hochsch., Diss., 2008


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2008-12-02

Online
URN: urn:nbn:de:hbz:82-opus-28807
URL: https://publications.rwth-aachen.de/record/51231/files/Deselaers_Thomas.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Maschinelles Sehen (Genormte SW) ; Maschinelles Lernen (Genormte SW) ; Mustererkennung (Genormte SW) ; Bilderkennung (Genormte SW) ; Objekterkennung (Genormte SW) ; Bildverarbeitung (Genormte SW) ; Schriftzeichenerkennung (Genormte SW) ; Bilddatenbank (Genormte SW) ; Merkmalsextraktion (Genormte SW) ; Informatik (frei) ; Bildsuche (frei) ; inhaltsbasierte Bildsuche (frei) ; diskriminative Modelle (frei) ; diskriminative Modelle mit versteckte Variablen (frei) ; Image retrieval (frei) ; content-based image retrieval (frei) ; object recognition (frei) ; discriminative models (frei) ; discriminative models with latent variables (frei)

Thematische Einordnung (Klassifikation)
DDC: 004
msc: 68T45

Kurzfassung
In dieser Arbeit werden Ansätze zur Bildsuche, Objekterkennung und diskriminativen Modellierung untersucht. Im Bereich Bildsuche wird eine große Anzahl verschiedener Bilddeskriptoren untersucht: Wie können diese kombiniert werden? Nach welchen Kriterien müssen Deskriptoren ausgewählt werden? Wir stellen eine Reihe von lokalen Bildmerkmalen vor, welche in dieser oder ähnlicher Form auch erfolgreich in der Objekterkennung eingesetzt werden und kombinieren diese mit textueller Information und anderen Deskriptoren. Außerdem werden Methoden vorgestellt, mit denen optimale Kombinationen von visueller und textueller Information bestimmt werden können. Im Bereich Objekterkennung werden verschiedene Modelle vorgestellt sowie die Beziehung zwischen diesen und deren Vor- und Nachteile diskutiert. Insbesondere wird bei der Entwicklung der Methoden versucht, Heuristiken zu vermeiden und alle verfügbaren Informationsquellen mit einzubeziehen. Wir erweitern diesen Ansatz in zahlreichen Aspekten, um seine Einschränkungen zu umgehen. Insgesamt stellen wir acht Modelle zur Objekterkennung vor: Ein emph{Nearest Neighbour}-basiertes Modell, zwei Varianten der emph{Bag-of-Visual-Words}-Methode, und ein Modell, das auf einem Verfahren zum geometrischen Matching aufbaut um räumliche Beziehungen zwischen den Teilen zu modellieren. Weiterhin entwickeln wir ein Modell, welches auf Gaußschen Mischverteilungen basiert, Vektorquantisierung vermeidet, diskriminativ trainiert werden kann und räumliche Beziehungen einbeziehen kann. Dieses Modell wird dann in eine log-lineare Form umformuliert und zu einem Supportvektormaschinen-Modell erweitert. Außerdem stellen wir ein emph{Random Forest} Modell für Mensch-Maschine-Interaktion vor, welches Erscheinung, Form und Tiefeninformation verbindet. Im Bereich diskriminativer Modelle werden einige Aspekte aus den Bereichen Bildsuche und Objekterkennung vertieft und ein neues Modell zur Zeichenerkennung vorgestellt. Wir erweitern die log-linearen Modelle, um latente Variablen integrieren zu können. Dies ermöglicht Verformungen und multi-modale Daten zu modellieren. Weiterhin untersuchen wir die Beziehung zwischen Support-Vektor-Maschinen und Gaußschen Mischverteilungsmodellen und stellen ein Modell vor, welches die Vorteile beider Ansätze vereinigt. Alle in dieser Arbeit vorgestellten Methoden werden auf Standard-Benchmark-Datensammlungen untersucht. Für die Bildsuche untersuchen wir experimentell die Leistungsfähigkeit unterschiedlicher Bildmerkmale daraufhin, für welche Aufgaben sie geeignet sind und wie man sie kombinieren kann. Weiterhin haben wir an zahlreichen ImageCLEF-Evaluationen teilgenommen und dort hervorragende Ergebnisse erzielt. Insbesondere haben wir das beste Ergebnis mit visueller Suche in der Aufgabe zur medizinischen Bildsuche von ImageCLEF 2007 durch eine diskriminativ trainierte Merkmalskombination erzielt. Die Objekterkennungsmethoden wurden auf den Caltech und PASCAL-Aufgaben getestet und es wurde gezeigt, dass Gaußsche Mischverteilungen und die davon abgeleiteten Ansätze, die auf Vektorquantisierung verzichten, bessere Ergebnisse erzielen als alle anderen Methoden. Die Methoden im Kapitel über diskriminative Modelle werden auf der USPS und auf der MNIST Datensammlung evaluiert und das verformungsinvariante log-lineare Modell erzielt sehr gute Ergebnisse mit einer Größenordnung weniger Parameter als vergleichbare Methoden.

In this thesis, we present approaches to image retrieval, object recognition, and discriminative models. For image retrieval, we evaluate a large variety of different descriptors and answer the questions how descriptors can be combined and which descriptor should be chosen according to which criterion. We suggest a set of local descriptors that have been used successfully for object recognition and combine these with textual information and several other descriptors. Additionally, we present methods to optimally fuse visual and textual data for retrieval. For object recognition, we propose different models and investigate and analyse their relationships and their individual advantages and disadvantages. In particular, we try to avoid heuristics in the creation of the models and incorporate all available knowledge cues. We extend the bag-of-visual words approach into several directions in order to overcome its limitations. In total, we present eight different models for object recognition including a nearest neighbour-based model, two variants of bag-of-visual-words models, and a model based on geometric matching incorporating spatial relationships. We also present a model based on Gaussian mixtures which abandons vector quantisation, can be trained discriminatively, and can incorporate spatial relationships. This model is then rewritten and extended toward log-linear mixtures and support vector machines. We also present a random-forest-based approach that fuses appearance, shape, and depth cues for human computer interaction. Regarding discriminative models, we delve deeper into some aspects of image retrieval and object recognition. We propose a novel model for optical character recognition. We extend log-linear models to incorporate hidden variables, thus allowing for modelling image deformations and multi-modal data. Furthermore, we investigate the relationship between certain support vector machines and Gaussian mixtures in order to achieve a joint model that fuses their advantages. All approaches proposed in this work were evaluated on standard benchmarks. For image retrieval, we experimentally evaluated the performance of a large variety of descriptors, how they perform on different tasks, and how they can be combined to achieve different results. We participated in several ImageCLEF evaluations and obtained excellent results using content-based image retrieval techniques. In particular, we achieved the best result using visual retrieval in the ImageCLEF 2007 medical retrieval task using our discriminatively trained feature combination. The object recognition approaches were evaluated on the Caltech and PASCAL tasks and it could be shown that Gaussian mixtures and related approaches incorporating spatial information and avoiding vector quantisation outperform all other approaches. The methods proposed in the chapter on discriminative models were evaluated on the standard USPS and MNIST tasks and our deformation-aware log-linear model achieves very competitive results while using an order of magnitude fewer parameters than competing approaches.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT016049226

Interne Identnummern
RWTH-CONV-113543
Datensatz-ID: 51231

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)