h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Visual discovery of landmarks and their details in large-scale image collections = Visuelles Auffinden von Denkmälern und ihren Details in großen Mengen von Bildern



VerantwortlichkeitsangabeTobias Weyand

ImpressumAachen : Shaker 2016

Umfang1 Online-Ressource (viii, 171 Seiten) : Illustrationen, Diagramme

ISBN978-3-8440-4882-7

ReiheSelected topics in computer vision ; 2


Dissertation, RWTH Aachen University, 2016

Druckausgabe: 2016. - Auch veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2017


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2016-09-30

Online
URN: urn:nbn:de:hbz:82-rwth-2017-002035
DOI: 10.18154/RWTH-2017-00203
URL: https://publications.rwth-aachen.de/record/681424/files/681424.pdf
URL: https://publications.rwth-aachen.de/record/681424/files/681424.pdf?subformat=pdfa

Einrichtungen

  1. Lehr- und Forschungsgebiet Informatik 8 (Computer Vision) (123720)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
landmark recognition (frei) ; image clustering (frei) ; image retrieval (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Durch ihr rapides Wachstum in den letzten Jahren sind Foto-Sharing-Webseiten zu einer sehr wertvollen Quelle visueller Daten geworden. Sie bieten eine Fülle von Fotos der Denkmäler, Monumente, Skulpturen und Gemälde der Welt. Aus diesem Reichtum an visueller Information lassen sich Landmark Recognition Engines konstruieren, die ein Foto von einem Denkmal automatisch mit seinem Namen und Standort versehen können. Landmark Recognition Engines bauen auf Clustering Algorithmen auf, die Millionen von Fotos nach den abgebildeten Gebäuden oder Objekten gruppieren.Dieses Gruppierungsproblem ist sehr komplex, da die massive Menge an Internetfotos effiziente und hochgradig parallele Algorithmen erfordert. Zudem sorgen verschiedene Blickwinkel, Tageszeiten und Wetterbedingungen für starke Veränderungen im Aussehen der Gebäude, weshalb robuste Ahnlichkeitsmaße für Bilder benötigt werden. Letztlich ist es wichtig, ein Clustering-Kriterium zu definieren, das sinnvolle Objektcluster ergibt. Der Iconoid Shift Algorithmus, den wir in dieser Dissertation präsentieren, verwendet eine sehr intuitive Definition von Clustern: Er repräsentiert jedes Objekt durch ein ikonisches Bild, oder Iconoid. Der Iconoid eines Objekts ist das Bild, welches den größten Gesamtüberlapp mit allen anderen Bildern dieses Objekts hat. Das Cluster eines Iconoid ist die Menge aller Bilder, die einen gewissen Mindestüberlapp mit dem Iconoid haben. Wir finden Iconoids durch Mode Search, unter Verwendung eines neuen Ahnlichkeitsmaßes, welches auf dem Bildüberlapp basiert und daher robuster bezüglich Veränderungen in Blickwinkel und Beleuchtung ist als traditionelle Bildähnlichkeitsmaße. Wir schlagen effiziente parallele Algorithmen für diese Mode Search vor. Im Gegensatz zu den meisten vorherigen Algorithmen zum Clustern von Bildern, welche ein hartes Clustering produzieren, erzeugt Iconoid Shift ein überlappendes Clustering und kann daher elegant mit Bildern umgehen, die mehrere benachbarte Denkmäler zeigen, indem diese Bilder mehreren Clustern zugeordnet werden.Die steigende Dichte an Fotos auf Foto-Sharing-Webseiten erlaubt es uns, noch einen Schritt weiter zu gehen und sogar Sub-Strukturen von Gebäuden, wie Türen, Türme oder Fassadendetails aufzufinden. Hierzu präsentieren wir den Hierarchical Iconoid Shift Algorithmus, der statt eines flachen Clustering eine Hierarchie von Clustern produziert, in der jedes Cluster ein Gebäude oder eine Sub-Struktur repräsentiert. Dieser Algorithmus basiert auf einer neuen Variante von Medoid Shift, die die Evolution von Modi im Scale Space verfolgt während sie kontinuierlich die Größe des Kernel-Fensters erhöht.Aber welche Arten von Objekten kann eine ausschließlich durch Mining von FotoSharing-Webseiten erstellte Landmark Recognition Engine erkennen? Und wie konstruiert man eine solche Engine, sodass sie möglichst effizient ist und gleichzeitig eine gute Erkennungsrate erreicht? Um diese Fragen zu beantworten, führen wir eine großangelegte Evaluation einer Landmark Recognition Engine durch und zeigen auf, wie die Wahl ihrer Komponenten und Parameter die Erkennungsrate verschiedener Arten von Objekten, wie Gebäuden, Gemälden oder Skulpturen beeinflusst.Unser letzter Beitrag bezieht sich auf ein praktisches Problem der Image Retrieval Methoden, auf denen unsere Algorithmen basieren: Ein großer Anteil von Internetfotos hat sichtbare Wasserzeichen, Datums- und Uhrzeitinformationen oder Rahmen, die in den Bildinhalt eingebettet sind. Diese Artefakte verursachen oft falsch-positive Bildmatches. Wir präsentieren eine einfache, aber hocheffektive und effiziente Methode, um solche Matches zu detektieren und dadurch Fehler beim Auffinden und Erkennen von Denkmälern zu verhindern.

With their rapid growth in recent years, Internet photo collections have become an invaluable repository of visual data. In particular, they provide detailed coverage of the world’s landmark buildings, monuments, sculptures, and paintings. This wealth of visual information can be used to construct landmark recognition engines that can automatically tag a photo of a landmark with its name and location. Landmark recognition engines rely on clustering algorithms that are able to group several millions of images by the buildings or objects they depict.This grouping problem is very challenging since the massive amount of Internet images requires efficient and highly parallel algorithms, and the appearance variability of buildings caused by viewpoint, weather and lighting changes requires robust image similarity measures. Most importantly, it is critical to define a clustering criterion that results in meaningful object clusters. The Iconoid Shift algorithm we present in this thesis uses a very intuitive definition: It represents each object by an iconic image, or Iconoid, which is the image that has the highest overlap with all other images of the object. The object cluster is then the set of all images that have a certain minimum overlap with the Iconoid. We find Iconoids by performing mode search using a novel distance measure based on image overlap that is more robust to viewpoint and lighting changes than traditional image distance measures. We propose efficient parallel algorithms for performing this mode search. In contrast to most previous algorithms that produced a hard clustering, Iconoid Shift produces an overlapping clustering and thus elegantly handles images showing multiple nearby landmarks by assigning them to multiple clusters.The increasing density of Internet photo collections allows us to go a step further and to even discover sub-structures of buildings such as doors, spires, or facade details. To this end, we present the Hierarchical Iconoid Shift algorithm that, instead of a flat clustering, produces a hierarchy of clusters, where each cluster represents a building sub-structure. This algorithm is based on a novel hierarchical variant of Medoid Shift that tracks the evolution of modes through scale space by continuously increasing the size of its kernel window.But which objects can a landmark recognition engine built by automatically mining Internet photo collections recognize? And how to construct such a system such that it is efficient and achieves high recognition performance? To answer these questions, we perform a large-scale evaluation of the different components of a landmark recognition system, analyzing how different choices of components and parameters affect performance for different object categories such as buildings, paintings or sculptures.As a final contribution, we consider a practical problem of the image retrieval methods that our algorithms are based on: a large fraction of the photos in Internet photo collections has visible watermarks, timestamps, or frames embedded in the image content. These artifacts often cause false-positive image matches. We present a simple but highly efficient and effective method to detect such matches and thus prevent errors in landmark discovery and recognition.

OpenAccess:
Download fulltext PDF Download fulltext PDF (PDFA)
(additional files)

Dokumenttyp
Book/Dissertation / PhD Thesis

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT019221399

Interne Identnummern
RWTH-2017-00203
Datensatz-ID: 681424

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Document types > Books > Books
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
123720

 Record created 2017-01-05, last modified 2023-04-08