h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Efficient effective image based localization = Effiziente & effektive bildbasierte Lokalisierung



VerantwortlichkeitsangabeTorsten Sattler

ImpressumAachen : Shaker 2014

UmfangIX, 198 S. : Ill., graph. Darst.

ReiheSelected topics in computer graphics ; 11


Zugl.: Aachen, Techn. Hochsch., Diss., 2013


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2013-10-25

Online
URN: urn:nbn:de:hbz:82-opus-50318
URL: https://publications.rwth-aachen.de/record/444921/files/5031.pdf

Einrichtungen

  1. Fachgruppe Informatik (120000)
  2. Lehrstuhl für Informatik 8 (Computergraphik und Multimedia) (122310)

Inhaltliche Beschreibung (Schlagwörter)
Maschinelles Sehen (Genormte SW) ; Dreidimensionales maschinelles Sehen (Genormte SW) ; Lokalisierung <Robotik> (Genormte SW) ; Informatik (frei) ; image-based localization (frei) ; location recognition (frei) ; image retrieval (frei) ; prioritized descriptor matching (frei) ; camera pose estimation (frei)

Thematische Einordnung (Klassifikation)
DDC: 004
ccs: I.2.10 * I.5.4 * I.4.8

Kurzfassung
Das Ziel von bildbasierten Lokalisierungsverfahren ist es, für ein gegebenes Fotos die Position und Ausrichtung der dazugehörigen Kamera relativ zu einem 3D Szenenmodel zu bestimmen. Das entsprechende Problem der bildbasierten Lokalisierung findet dabei viele praktische Anwendungen, wie z.B. Fußgängernavigation, Augmented Reality und Structure-from-Motion. In dieser Arbeit stellen wir effektive und effiziente Ansätze zur Lösung dieses Problems vor, d.h., wir präsentieren Verfahren welche die Position und Orientierung der Kamera für eine große Bandbreite von Blickpunkten und Beleuchtungsbedingungen in kurzer Zeit berechnen können. Im folgenden gehen wir davon aus, dass das 3D Szenenmodell durch eine Structure-from-Motion Rekonstruktion der Umgebung aus einer Menge von Bilder erzeugt wurde. Dies erlaubt es uns jedem 3D Punkt mehrere Featuredeskriptoren zuzuweisen, welche das Aussehen der Szene um diesen Punkt herum beschreiben. Folglich können wir 2D-3D Korrespondenzen zwischen Featurepunkten im Anfragebild und 3D Punkten im Modell mit Hilfe der dazugehörigen Deskriptoren bestimmen. Diese Korrespondenzen erlauben es uns wiederum die Position und Ausrichtung der Anfragekamera zu berechnen. Die Hauptschwierigkeit beim Deskriptorenvergleich liegt dabei in der Größe des betrachteten Problems da unsere Szenenmodelle mehrere Millionen 3D Punkte enthalten während tausende von Featuren in den Anfragebildern gefunden werden. Als ein Hauptbeitrag dieser Arbeit zeigen wir, dass selbst solche großen Vergleichsprobleme immer noch effizient mittels prioritisierten Suchverfahren gelöst werden können. Wir stellen dabei ein einfach umzusetzendes Prioritisierungsverfahren vor, welches in der Praxis trotzdem eine nahezu optimale Lösung darstellt. Wir verbinden dabei unsere Prioritisierungsstrategie mit einem neuen Ansatz der aktiv nach weiteren Korrespondenzen sucht. Das resultierende Verfahren zur bildbasierten Lokalisierung erreicht dabei die schnellsten Laufzeiten die bisher veröffentlicht wurden während es andere Verfahren in Effektivität erreicht oder sogar übertrifft. Wir zeigen außerdem, dass die große Stärke dieser Klasse von Verfahren, ihre Fähigkeit qualitativ hochwertige Korrespondenzen zu finden, gleichzeitig deren Anwendbarkeit auf beliebig große Datensätze verhindert. Im letzten Teil der Arbeit beschäftigen wir uns daher mit besser skalierenden Ansätzen und zeigen wie diese Skalierbarkeit mit Effizienz und Effektivität in Einklang gebracht werden kann.

The problem of image-based localization is the problem of accurately determining the position and orientation from which a novel photo was taken relative to a 3D representation of the scene. It is encountered in many interesting applications such as pedestrian or robot navigation, Augmented Reality, or Structure-from-Motion, creating a strong need for algorithms solving the image-based localization problem. In this thesis, we therefore present solutions to this problem that are both effective and efficient, i.e., we propose methods that can localize novel query images taken under a wide range of viewing conditions while requiring only a small amount of processing time. We assume that the 3D scene representation is obtained by using Structure-from-Motion techniques to reconstruct the environment from a set of photos. As a result, we can associate each 3D point with multiple image descriptors modeling the local appearance of the scene around this point. We can then obtain 2D-3D correspondences between 2D feature points in the query image and 3D scene points in the model by solving a descriptor matching problem. These 2D-3D matches can in turn be used to estimate the camera position of the query image, i.e., the position and orientation from which it was taken. The main difficulty of descriptor matching lies in the sheer size of the problem, since our models contain millions of 3D points while thousands of features are found in our query images. As a major contribution, we show that the resulting descriptor matching problem can still be solved very efficiently using prioritized search. We propose a prioritization scheme that is easy to implement, yet can be expected to perform close to optimal in practice. By combining our prioritization with a novel active search step that is able to discover additional matches, we are able to derive an image-based localization approach that achieves or surpasses state-of-the-art effectiveness while offering the fastest run-times published so far. Analyzing such direct matching methods, we demonstrate that their major advantage, namely their ability to identify a set of high-quality matches, also prevents their scalability to larger datasets. Consequently, we also consider image retrieval methods for image-based localization since they are inherently more scalable. As a second major contribution, we identify the algorithmic factors preventing image retrieval methods to achieve the same effectiveness as our original system and propose a modification that is able to close the gap in effectiveness without sacrificing scalability.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-145236
Datensatz-ID: 444921

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122310

 Record created 2014-12-09, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)