h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Vision-based category agnostic object tracking for mobile robots and intelligent vehicles



Verantwortlichkeitsangabevorgelegt von M.Sc. Aljoša Ošep

ImpressumAachen 2019

Umfang1 Online-Ressource (xi, 212 Seiten) : Illustrationen, Diagramme


Dissertation, RWTH Aachen University, 2019

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2020


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2019-06-27

Online
DOI: 10.18154/RWTH-2020-06252
URL: https://publications.rwth-aachen.de/record/792619/files/792619.pdf

Einrichtungen

  1. Lehr- und Forschungsgebiet Informatik 8 (Computer Vision) (N.N.) (123720)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
computer vision (frei) ; machine learning (frei) ; multiobject tracking (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Die Analyse sich bewegender Objekte ist eine wichtige Fähigkeit mobiler Fahrzeuge, wie zum Beispiel selbstfahrende Autos. Durch das Tracking können autonome Systeme den Aufenthaltsort von wichtigen Objekten erkennen und ihre zukünftige Bewegung bestimmen. Diese Fähigkeit, potentielle Kollisionen vorauszusehen und auf möglicherweise gefährliche Situationen zu reagieren sind für eine sichere Roboternavigation, Bewegungsplanung und Vermeidung von Kollisionen unerlässlich. In den letzten Jahren hat Deep Learning die Art und Weise revolutioniert, in der Forschung im Bereich Computer Vision durchgeführt wird und eine der Erfolgsgeschichten dieser Entwicklung sind schnelle Fortschritte im Bereich der Objekterkennung. Mit der Verfügbarkeit robuster Objektdetektoren, hat sich Tracking-durch-Detektion als ein führendes Paradigma für das visuelle Tracking mehrerer Objekte etabliert. Die Mehrzahl der vorhandenen visuellen Methoden führt das Tracking im Bildbereich durch. In der mobilen Robotik und in autonomen Fahrszenarien ist jedoch eine präzise 3D-Lokalisierung und Trajektorienschätzung von grundlegender Bedeutung. Darüber hinaus sind Tracking-durch-Detektion Ansätze inhärent auf eine vordefinierte Menge von Objektkategorien beschränkt, für die Objektdetektoren robust trainiert werden können. Zukünftige mobile Systeme benötigen jedoch die Fähigkeit, mit komplexen vom Menschen geschaffenen Umgebungen umgehen zu können, in denen es unmöglich wäre, Detektoren für jede mögliche Objektkategorie zu trainieren. Das erste Ziel dieser Arbeit ist die Entwicklung eines visuellen Systems, das das detektionsbasierte mehrere-Objekte-Tracking-Paradigma durch die Verwendung eines kostengünstigen Stereo-Setups auf 3D erweitert und umliegende Objekte im 3D-Raum präzise erkennen, tracken und lokalisieren kann. Dazu schlagen wir ein System vor, das 2D-Objektdetektionen und stereobasierte Tiefenmessungen kombiniert um das bild- basierte Tracking und, was noch wichtiger ist, die Genauigkeit der 3D-Lokalisierung, zu verbessern. Während des Trackings koppeln wir bildbasierte Detektionen und 3D Objektsegmentierungsschätzungen lose und kombinieren sie auf der Objekt-Track-Ebene. Das ermöglicht uns das Tracking von weit entfernten Objekten und diese Tracks mit genaueren Informationen im Nahbereich fortzusetzen, während der Wechsel zwischen den Modalitäten reibungslos erfolgt. Dieser Ansatz erfordert immer noch Objektdetektionen und ist auf die häufigsten Objektkategorien beschränkt, für die Detektoren ohne weiteres verfügbar sind. Um diese Einschränkung zu überwinden, schlagen wir darüber hinaus CAMOT vor, ein visueller, kategorieagnostischer Multi-Objekt-Tracking Ansatz. CAMOT nutzt die jüngsten Entwicklungen im Bereich lernbasierter Objekt-Proposal Generierung und erweitert bild- basierte Objekt-Proposals um 3D Informationen, um Trajektorien beliebiger Objekte zu schätzen. Im Kern dieses Ansatzes steht eine effiziente maskenbasierte Repräsentation von getrackten Objekten, die bei Vorhandensein von Tiefenschätzungen einfach in den 3D-Raum erweitert werden kann. Dies ermöglicht eine robuste und präzise Datenzuordnung basierend auf geschätzter 3D-Position und einer pixelgenauen Darstellung der Tracks. Obwohl Objekte unabhängig von ihrer Kategorie getrackt werden, können die meisten Verkehrsteilnehmer durch das Klassifizieren dieser Objekt-Tracks immer noch erkannt werden. Zusätzlich erweitern wir CAMOT für die Aufgabe der Erzeugung von Video-Objekt-Proposals. Wir demonstrieren, dass wir durch die Verwendung von Bewegungskonsistenz und Parallax als Konsistenzfilter, unsere Methode auf einem kleineren Datensatz mit Annotationen für 80 Klassen trainieren können, und CAMOT bessere Ergebnisse als modernste Methoden, die auf einem umfangreichen Datensatz mit über 3,000 Klassen trainiert wurden, erzielt. Um die Fähigkeiten der vorgeschlagenen Trackingmethoden zu evaluieren, evaluieren wir sie auf dem KITTI Tracking-Benchmark. Um zusätzlich die Wirksamkeit und Robustheit der vorgeschlagenen Methoden zu demonstrieren, wenden wir sie auf mehrstündigen Fahrvideos des Oxford RobotCar-Datensatzes an, die bei schwierigen Wetter- und Lichtbedingungen aufgenommen wurden. Unsere Experimente zeigen, dass das vorgeschlagene 3D-Tracking-durch-Detektions-Verfahren vergleichbare Ergebnisse zu hochmodernen bildbasierten Methoden liefert und die von uns vorgeschlagenen kategorienunabhängigen Varianten vergleichbare Leistung in der Nähe der Kamera erzielen. Darüber hinaus zeigen wir, dass mit dem Kategorieagnostischem Tracker mehrere Stunden Fahrvideo analysiert werden können und wir erhalten mehrere tausend Tracks von bekannten und unbekannten Objekten. Wir zeigen zusätzlich, dass wir anhand der erhaltenen Objekt- Tracks unbekannter Objektkategorien neue Objektklassen entdecken können, neue Detektoren für diese erlernen können, und lernen können, ihre zukünftigen Bewegungen vorherzusagen.

Analysis of the moving objects is a vital ability of mobile vehicles, such as self-driving cars. Through tracking, autonomous systems can become aware of the whereabouts of important objects and determine their future motion. This ability to foresee potential collisions and react to possibly harmful situations is essential for safe robot navigation, motion planning, and collision avoidance. In recent years, deep learning has revolutionized the way research is being performed in computer vision and one of the success stories of this development is rapid progress in the area of object detection. With the availability of robust object detectors, tracking-by-detection has become established as a leading paradigm for vision-based multi-object tracking. The majority of existing vision-based methods perform tracking in the image domain. Yet, in mobile robotics and autonomous driving scenarios, precise 3D localization and trajectory estimation is of fundamental importance. Furthermore, tracking-by-detection approaches are inherently limited to a pre-defined set of object categories, for which object detectors can be robustly trained. However, future mobile systems will need a capability to cope with rich human-made environments, in which obtaining detectors for every possible object category would be infeasible. The first goal of this thesis is to develop a vision system that lifts the detection-based multi-object tracking paradigm to 3D using an inexpensive stereo setup and that is able to detect, track, and localize surrounding objects precisely in 3D space. To this end, we propose a system that carefully combines 2D object detections and stereo-based depth measurements in order to improve image-based tracking and, more importantly, precise 3D localization. During tracking, we loosely couple image detections and 3D object segmentation estimates and combine them on an object track level. This enables us to track distant objects and continue these tracks with more precise information in the close range, while smoothly transitioning between the modalities. This approach still requires object detections and is limited to the most common object categories, for which detectors are readily available. To overcome this limitation, we further propose CAMOT, a vision-based, category-agnostic multi-object tracking approach. CAMOT leverages recent developments in the area of learning-based object proposal generation and lifts image-based proposal estimates to 3D space in order to estimate trajectories of arbitrary objects. At the core of this approach is an efficient mask-based representation of tracked objects, that can be easily lifted to 3D space in the presence of depth estimates and that allows for robust and precise data association based on estimated 3D position and pixel-precise representation of the tracks. Even though objects are tracked regardless of their category, most common traffic participants can still be recognized by classifying these object tracks. We further extend CAMOT for the task of video-object proposal generation and demonstrate that by utilizing motion consistency and parallax as consistency filters, we can train our method on a smaller dataset containing labels for 80 classes and performs better than state-of-the-art methods, trained on a large-scale dataset with over 3,000 classes. In order to evaluate capabilities for the proposed tracking methods, we evaluate them on the KITTI tracking benchmark. To further demonstrate the efficacy and robustness of the proposed methods, we apply them on several hours of driving video of the Oxford RobotCar dataset, captured in challenging weather and lighting conditions. Our experiments show that the proposed 3D tracking-by-detection method is on-par with state-of-the-art image-based methods and that our proposed category-agnostic variants achieve comparable performance in the camera near-range. Furthermore, we show that the category-agnostic tracker can be used to analyze several hours of driving video and mine several thousand tracks of previously known as well as unknown objects. We additionally show that based on the mined object tracks of unknown object categories, we can discover new object classes, learn new detectors for them, and learn to predict their future motion.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT020482229

Interne Identnummern
RWTH-2020-06252
Datensatz-ID: 792619

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
123720

 Record created 2020-06-16, last modified 2023-04-11


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)