Data-driven and Sparse-to-Dense Concepts in Scene Flow Estimation for Automotive Applications

  • Highly assisted driving and autonomous vehicles require a detailed and accurate perception of the environment. This includes the perception of the 3D geometry of the scene and the 3D motion of other road users. The estimation of both based on images is known as the scene flow problem in computer vision. This thesis deals with a solution to the scene flow problem that is suitable for application in autonomous vehicles. This application imposes strict requirements on accuracy, robustness, and speed. Previous work was lagging behind in at least one of these metrics. To work towards the fulfillment of those requirements, the sparse-to-dense concept for scene flow estimation is introduced in this thesis. The idea can be summarized as follows: First, scene flow is estimated for some points of the scene for which this can be done comparatively easily and reliably. Then, an interpolation is performed to obtain a dense estimate for the entire scene. Because of the separation into two steps, each part can be optimized individually. In a series of experiments, it is shown that the proposed methods achieve competitive results and are preferable to previous techniques in some aspects. As a second contribution, individual components in the sparse-to-dense pipeline are replaced by deep learning modules. These are a highly localized and highly accurate feature descriptor to represent pixels for dense matching, and a network for robust and generic sparse-to-dense interpolation. Compared to end-to-end architectures, the advantage of deep modules is that they can be trained more effciently with data from different domains. The recombination approach applies a similar concept as the sparse-to-dense approach by solving and combining less diffcult, auxiliary sub-problems. 3D geometry and 2D motion are estimated separately, the individual results are combined, and then also interpolated into a dense scene flow. As a final contribution, the thesis proposes a set of monolithic end-to-end networks for scene flow estimation.
  • Hochassistiertes Fahren und autonome Fahrzeuge erfordern eine detaillierte und genaue Wahrnehmung der Umgebung. Dazu gehört auch die Wahrnehmung der 3D-Geometrie der Szene und der 3D-Bewegung anderer Verkehrsteilnehmer. Die Schätzung von beidem auf der Basis eines optischen Sensors ist in der Computer Vision als Szenenflussproblem bekannt. Diese Arbeit befasst sich mit einer Lösung des Szenenflussproblems, die für den Einsatz in autonomen Fahrzeugen geeignet ist. Diese Anwendung stellt hohe Anforderungen an die Genauigkeit, Robustheit und Geschwindigkeit. Bisherige Arbeiten hinken in mindestens einem dieser Punkte hinterher. Um auf die Erfüllung dieser Anforderungen hinzuarbeiten, wird in dieser Arbeit das "Sparse-to-Dense"-Konzept für die Schätzung des Szenenflusses eingeführt. Die Idee lässt sich wie folgt zusammenfassen: Zunächst wird der Szenenfluss für einige Punkte der Szene geschätzt, für die dies vergleichsweise einfach und zuverlässig möglich ist. Dann wird eine Interpolation durchgeführt, um eine dichte Schätzung für die gesamte Szene zu erhalten. Durch die Aufteilungin zwei Schritte kann jeder Teil einzeln optimiert werden. In einer Reihe von Experimenten wird gezeigt, dass die vorgeschlagenen Methoden konkurrenzfähige Ergebnisse erzielen und gegenüber bisherigen Techniken in einigen Aspekten vorzuziehen sind. Als zweiter Beitrag werden einzelne Komponenten in der "Sparse-to-Dense"-Pipeline durch Deep Learning Module ersetzt. Dabei handelt es sich um einen hoch lokalisierten und hochpräzisen Deskriptor zur Repräsentation von Pixeln, und um ein Netzwerk für eine robuste und generische "Sparse-to-Dense"-Interpolation. Im Vergleich zu End-to-End-Architekturen haben einzelne Lern-Module den Vorteil, dass sie auf eine breitere Menge an Trainingsdaten zurückgreifen können. Der Rekombinationsansatz wendet ein ähnliches Konzept wie der "Sparse-to-Dense"-Ansatz an, indem weniger schwierige Teilprobleme gelöst und kombiniert werden. 3D-Geometrie und 2D-Bewegung werden separat geschätzt, die einzelnen Ergebnisse werden kombiniert, und dann ebenfalls zu einem dichten Szenenfluss interpoliert. Als letzter Beitrag wird in dieser Arbeit eine Reihe von monolithischen End-to-End Netzwerken für die Schätzung des Szenenflusses vorgeschlagen.

Download full text files

Export metadata

Metadaten
Author:René SchusterORCiD
URN:urn:nbn:de:hbz:386-kluedo-68455
ISBN:978-3-8439-5039-8
Publisher:Verlag Dr. Hut
Place of publication:München
Advisor:Didier Stricker
Document Type:Doctoral Thesis
Language of publication:English
Date of Publication (online):2022/06/10
Date of first Publication:2022/05/30
Publishing Institution:Technische Universität Kaiserslautern
Granting Institution:Technische Universität Kaiserslautern
Acceptance Date of the Thesis:2022/03/18
Date of the Publication (Server):2022/06/13
Tag:deep learning; interpolation; scene flow; sparse-to-dense
Page Number:X, 217
Faculties / Organisational entities:Kaiserslautern - Fachbereich Informatik
CCS-Classification (computer science):J. Computer Applications
DDC-Cassification:0 Allgemeines, Informatik, Informationswissenschaft / 004 Informatik
Licence (German):Zweitveröffentlichung