h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Learning-based visual scene and person understanding for mobile robotics



Verantwortlichkeitsangabevorgelegt von Alexander Hermans, Master of Science

ImpressumAachen 2020

Umfang1 Online-Ressource (x, 243 Seiten) : Illustrationen, Diagramme


Dissertation, RWTH Aachen University, 2020

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2021


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2020-12-21

Online
DOI: 10.18154/RWTH-2020-12472
URL: https://publications.rwth-aachen.de/record/809235/files/809235.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 13 (Computer Vision) (123710)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
computer vision (frei) ; deep learning (frei) ; detection (frei) ; person re-identification (frei) ; robotics (frei) ; semantic segmentation (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Wir haben in den letzten Jahrzehnten enorme Fortschritte in der Computer Vision Community erlebt. Während sich frühe Ansätze oft auf Heuristiken stützten und Anwendungen von Machine Learning Methoden nur begrenzt waren, haben die Fortschritte in Deep Learning das Feld erheblich verändert. Sie haben es uns ermöglicht, über handgefertigte Zwischenfunktionen hinauszugehen und tiefe neuronale Netzwerke zu trainieren. Insbesondere in Kombination mit wachsender Rechenleistung und wachsenden Datensatzgrößen haben wir sehr beeindruckende Ergebnisse erzielt, die bei einigen Anwendungen sogar die menschlichen Fähigkeiten übertreffen. Wenn wir jedoch Computer Vision innerhalb einer Robotik-Anwendung einsetzen wollen, stellen wir oft fest, dass die leistungsfähigsten Methoden schwierig einzusetzen sind. Da die Inferenzgeschwindigkeit in der Regel kein wirkliches Problem für die Computer Vision Forschung darstellt, reichen die begrenzten Rechenressourcen auf mobilen Roboterplattformen nicht aus, um viele der Forschungsmethoden online auszuführen. Darüber hinaus erzeugen viele Sensorkonfigurationen, die auf Roboterplattformen verwendet werden, Bilder mit Eigenschaften, die sich von denen in vielen Computer Vision Datensätzen unterscheiden, was zu unerwartetem Verhalten führt. Gleichzeitig verlassen sich immer mehr Roboter, wie Serviceroboter, autonome Fahrzeuge und Landwirtschaftsroboter, auf Bildverarbeitungsfähigkeiten. In dieser Dissertation beschäftigen wir uns mit visuellen Szenen- und Personenverständnis, die für Robotikanwendungen von hoher Relevanz sind. Roboter müssen in der Lage sein, ihre Umgebung zu verstehen und sich vor allem um Personen zu kümmern, um eine sichere Navigation und Interaktion zu gewährleisten. Wir beschäftigen uns insbesondere mit drei wichtigen Teilaufgaben: semantische Segmentierung, 2D-laserbasierte Objekterkennung und Re-Identifikation von Personen. Die semantische Segmentierung befasst sich mit der Aufgabe, jedes Pixel oder jeden Punkt in einer Szene mit einem Klassenlabel zu versehen. Dies wiederum kann dazu verwendet werden, Informationen auf höherer Ebene über die umgebende Szene zu extrahieren, die als Kontext für weitere Planungs- und Interaktionsaufgaben verwendet werden können. Die sich daraus ergebenden Segmentierungen liefern zwar Objekt-Labels, enthalten jedoch keine Instanz-Labels, sodass es schwierig ist, Objektinstanzen zu erkennen. Die Objekterkennung ist jedoch eine wichtige Fähigkeit, die es Robotern ermöglicht, sicher zwischen dynamischen Objekten zu navigieren. Insbesondere die Erkennung von Personen ist eine wichtige Aufgabe, die es Robotern ermöglicht, mit uns zu interagieren. Da viele mobile Plattformen bereits mit einem 2D-Laserscanner ausgestattet sind, sind sie interessante Eingabesensoren für die Objekterkennung, auch wenn die resultierenden Scans nur spärliche Daten enthalten. Neben der Personenerkennung ist auch die Re-Identifikation von Personen eine wichtige Aufgabe. Diese kann zur Verbesserung von Tracking-Ansätzen genutzt werden, erlaubt aber auch die Erfassung längerfristiger Statistiken und ermöglicht personenspezifische Interaktionen. Während wir versuchen, den Stand der Technik für jede dieser Aufgaben zu verbessern, konzentrieren wir uns auch auf die tatsächliche Anwendbarkeit der Ansätze. Wir schlagen drei verschiedene semantische Segmentierungsmethoden vor, die verschiedene Aspekte der Aufgabe angehen. Die ersten beiden befassen sich mit der semantischen Segmentierung von 3D-Punktwolken und basieren auf traditionellen Ansätze des maschinellen Lernens. Für unsere dritte Methode schlagen wir eine neuartige neuronale Netzarchitektur vor und zeigen, dass wir diese von Grund auf trainieren können, im Gegensatz zu dem typischen Ansatz, ein Netz auf großen zusätzlichen Datensätzen vorzutrainieren. Dann stellen wir unseren auf Deep Learning basierenden Objektdetektor vor, der auf einem gelernten Votingschema basiert. Wir wenden unseren Detektor auf Gehhilfen und Personen an und zeigen, dass er bestehende Methoden übertrifft. Schließlich wenden wir uns der Re-Identifikation von Personen zu und zeigen, dass entgegen der allgemeinen Meinung ein Triplet Loss genutzt werden kann, um ein Re-Identifikationsnetz zu trainieren, welches Ergebnisse auf dem neuesten Stand der Technik erzielt. Im Rahmen von Robotik-Projekten stellen wir verschiedene praktische Anwendungen unserer Methoden vor. Wir glauben, dass wir einen Beitrag zu den jeweiligen Computer Vision Feldern leisten konnten, hoffen aber vor allem, dass wir die theoretischen Ansätze und ihre tatsächlichen Anwendungen einander näher gebracht haben.

We have seen tremendous progress in the computer vision community across the past decades. While early approaches often relied on heuristics and only saw limited application of machine learning methods, the recent advances in deep learning have significantly changed the field. It has enabled us to move beyond hand-crafted features and toward learning deep neural networks end-to-end. Especially in combination with growing computational power and dataset sizes, we have seen very impressive results, even surpassing human capabilities for some applications. However, when we want to use computer vision within actual robotic applications, we often find that top-performing methods are difficult to deploy. Since inference speed is typically not a real concern for computer vision research, the limited computational resources on mobile robotics platforms are not sufficient to run many of the research methods online. Furthermore, many sensor setups used on robotics platforms produce images with characteristics different than those found in many computer vision datasets, thus resulting in unexpected behavior. At the same time, an increasing number of robots, such as service robots, autonomous cars and agricultural robots rely on vision capabilities. In this thesis we deal with visual scene and person understanding which are highly relevant for robotics applications. Robots need to be able to understand their environment and take special care around persons to ensure a safe navigation and interaction. We specifically deal with three important sub-tasks: semantic segmentation, 2D laser-based object detection, and person re-identification. Semantic segmentation deals with the task of labeling every pixel or point in a scene with a class label. This can in turn be used to extract higher level information about the surrounding scene, which can be used as context for further planning and interaction tasks. While the resulting segmentations provide object labels, they do not contain instance labels, making it hard to detect object instances. However, object detection is an important capability for allowing robots to safely navigate between dynamic objects. Especially the detection of persons is an important task, enabling robots to interact with us. Since many mobile platforms are already equipped with a 2D laser scanner, they are interesting input sensors for object detection, even though the resulting scans only contain sparse data. In addition to person detection, person re-identification is an important task. This can be used to improve tracking, but also allows to gather longer-term statistics and enables person specific interactions. While we aim to improve the state-of-the-art for each of these tasks, we also focus on the actual applicability of the approaches. We propose three different semantic segmentation methods, tackling different aspects of the task. The first two deal with the semantic segmentation of 3D point clouds and rely on traditional machine learning approaches. For our third method, we propose a novel neural network architecture and show that we can train it from scratch - this is in contrast to the typical approach of pretraining a network on large additional datasets. We then introduce our deep learning based object detector, which relies on a learned voting scheme. We apply our detector to walking aids and persons and show that it outperforms existing methods. Finally, we turn to person re-identification and show that, contrary to the general opinion, a triplet loss can be used to train a re-identification network that achieves state-of-the-art results. We show several applications of our methods within the context of robotics projects. We believe we have been able to contribute to the respective computer vision fields, but we especially hope that we have brought the theoretical approaches and their actual applications closer together.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT020808669

Interne Identnummern
RWTH-2020-12472
Datensatz-ID: 809235

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
123710

 Record created 2020-12-21, last modified 2023-04-11


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)