Video object segmentation and tracking

Voigtlaender, Paul; Leal-Taixé, Laura; Leibe, Bastian

doi:HT021160968

Video object segmentation and tracking

Voigtlaender, Paul^RWTH*

2021 & 2022

Verantwortlichkeitsangabevorgelegt von M.Sc. Paul Voigtlaender

ImpressumAachen : RWTH Aachen University 2021

Umfang1 Online-Ressource : Illustrationen, Diagramme

Dissertation, RWTH Aachen University, 2021

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2022

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Leibe, Bastian (Thesis advisor)^RWTH* ; Leal-Taixé, Laura (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2021-09-24

Online
DOI: 10.18154/RWTH-2021-10681
URL: https://publications.rwth-aachen.de/record/835610/files/835610.pdf

Einrichtungen

Projekte

Inhaltliche Beschreibung (Schlagwörter)
multi-object tracking (frei) ; segmentation (frei) ; tracking (frei) ; video object segmentation (frei) ; visual object tracking (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Video-Objekt-Segmentierung (VOS) ist die Computer-Vision-Aufgabe der Segmentierung von generischen Objekten in einem Video, basierend auf ihren Grundwahrheitssegmentierungsmasken, die für das erste Bild des Videos gegeben sind. Stark verwandt sind die Aufgaben des Einzel-Objekt-Trackings (SOT) und des Multi-Objekt-Trackings (MOT), wobei eine oder mehrere Objekte auf der Bounding-Box-Ebene getracked werden müssen. All diese Aufgaben sind hochgradig miteinander verwandt und haben wichtige Anwendungen wie autonomes Fahren und Videobearbeitung. Gleichzeitig bleiben all diese Aufgaben bis heute sehr herausfordernd. In dieser Arbeit schlagen wir drei verschiedene Methoden für VOS vor, die jeweils einem anderen Paradigma folgen. Die erste Methode, OnAVOS, folgt dem erscheinungsbasierten Paradigma und führt Online-Updates durch, um sich während der Verarbeitung eines Videos an Änderungen des Erscheinungsbilds anpassen zu können. Die zweite Methode, PReMVOS, folgt dem Tracking-durch-Detektion-Paradigma. PReMVOS verwendet einen mit dem ersten Bild angepassten Instanzsegmentor, um Objektmasken-Kandidaten bereitzustellen. Diese Kandidaten werden dann mithilfe von Re-Identifikation und Masken-Warping durch optischen Fluss über die Zeit zu Tracks verknüpft. Die dritte Methode, FEELVOS, folgt dem Merkmal-Einbettungs-Lernen Paradigma. FEELVOS ist eine der ersten VOS-Methoden, die eine Merkmals-Einbettung als interne Führung eines Faltungsnetzwerks benutzt und die Einbettung Ende-zu-Ende mit einer Segmentierungs-Verlustfunktion lernt. Durch diesen Ansatz erzielt FEELVOS starke Ergebnisse und ist dabei schnell und erfordert keine Anpassung des Netzwerks zur Testzeit. Dieses Merkmal-Einbettungs-Lernen Paradigma zusammen mit dem Ende-zu-Ende Lernen ist inzwischen zum dominierenden Ansatz für VOS geworden. Da Datensätze eine wichtige treibende Kraft für den Fortschritt bei VOS sind, entwickeln und validieren wir einen semiautomatischen Ansatz für die Annotation von VOS-Datensätzen basierend auf Bounding-Box-Annotationen. Wir zeigen, dass ein auf den (semi-)automatisch generierten Annotationen trainiertes hochmodernes VOS-Modell Ergebnisse erzielen kann, die einem Training auf komplett per Hand annotierten Daten sehr nahe kommen. Wir wenden dieses Annotationsverfahren an, um Masken-Annotationen für den herausfordernden Tracking Any Object (TAO) Datensatz zu erstellen und veröffentlichen den daraus resultierenden TAO-VOS-Benchmark. Wir zeigen, dass im Gegensatz zu bestehenden VOS-Benchmarks, TAO-VOS in der Lage ist, signifikante Unterschiede in der Leistungsfähigkeit der aktuellsten Methoden aufzudecken und dass die Ergebnisqualität auf TAO-VOS noch nicht saturiert ist. Wir erweitern die bekannte MOT-Aufgabe auf Multi-Objekt-Tracking und Segmentierung (MOTS), indem von Methoden gefordert wird, auch Segmentierungsmasken zu erzeugen. Wir annotieren zwei bestehende MOT-Datensätze mit Masken und veröffentlichen die daraus resultierenden KITTI MOTS- und MOTSChallenge-Benchmarks zusammen mit neuen Bewertungskriterien und einer Baseline-Methode. Zusätzlich erhöhen wir die Bekanntheit der neuen MOTS-Aufgabe, indem wir eine Workshop-Challenge veranstalten. MOTS ist ein Schritt zur Zusammenführung der Communities von VOS und MOT um den Austausch von Ideen zu fördern. Schließlich entwickeln wir Siam R-CNN, eine Siamesische Re-Detektionsarchitektur basierend auf Faster R-CNN, für die Aufgabe des langfristigen Einzel-Objekt-Trackings. Im Gegensatz zu den meisten bisherigen Langzeit-Tracking-Ansätzen führt Siam R-CNN Re-Detektion auf dem gesamten Bild statt eines lokalen Fensters durch, wodurch es nach dem Verlust des zu verfolgenden Objektes möglich ist, das Objekt wiederzufinden. Zusätzlich schlagen wir einen Tracklet-Dynamische-Programmierung-Algorithmus (TDPA) vor, der räumlichen und zeitlichen Kontext in Siam R-CNN miteinbezieht. Siam R-CNN erzielt gute Ergebnisse für SOT und VOS und ist besonders stark bei langfristigem Tracking.

Video Object Segmentation (VOS) is the computer vision task of segmenting generic objects in a video given their ground truth segmentation masks in the first frame. Strongly related are the tasks of single-object tracking (SOT) and multi-object tracking (MOT), where one or multiple objects need to be tracked on a bounding box level. All these tasks are highly related and have important applications like autonomous driving and video editing. At the same time, all of these tasks remain very challenging till today. In this work, we propose three different methods for VOS, each following a different paradigm. The first method, OnAVOS, follows the appearance-based paradigm and performs online updating to be able to adapt to appearance changes while processing a video. The second method, PReMVOS, follows the tracking-by-detection paradigm. PReMVOS uses a first-frame fine-tuned instance segmentor to provide object mask proposals. These proposals are then linked over time into tracks using re-identification and optical flow mask warping cues.The third method, FEELVOS, follows the feature embedding-learning paradigm. FEELVOS is one of the first VOS methods which use a feature embedding as internal guidance of a convolutional network and learn the embedding end-to-end with a segmentation loss. Following this approach, FEELVOS achieves strong results while being fast and not requiring test-time fine-tuning. This feature embedding-learning paradigm together with end-to-end learning has by now become the dominating approach for VOS. Since datasets are a major driving force behind progress in VOS, we further develop and validate a semi-automatic approach for labeling VOS datasets based on bounding box annotations. We demonstrate that training a state-of-the-art VOS model using the (semi-)automatically generated labels leads to results which come very close to using fully hand-labeled annotations. We apply this annotation procedure to create mask annotations for the challenging Tracking Any Object (TAO) dataset and release the resulting TAO-VOS benchmark. We demonstrate that unlike existing VOS benchmarks, TAO-VOS is able to reveal significant differences in performance of current methods and that the result quality on TAO-VOS does not saturate yet. We further extend the popular MOT task to Multi-Object Tracking and Segmentation (MOTS) by requiring methods to also produce segmentation masks. We annotate two existing MOT datasets with masks and release the resulting KITTI MOTS and the MOTSChallenge benchmarks together with new evaluation measures and a baseline method. Additionally, we promote the new MOTS task by hosting a workshop challenge. MOTS is a step towards bringing the communities of VOS and MOT together to facilitate further exchange of ideas. Finally, we develop Siam R-CNN, a Siamese re-detection architecture based on Faster R-CNN, to tackle the task of long-term single-object tracking. In contrast to most previous long-term tracking approaches, Siam R-CNN performs re-detection on the whole image instead of a local window, allowing it to recover after losing the object of interest. Additionally, we propose a tracklet dynamic programming (TDPA) algorithm to incorporate spatio-temporal context into Siam R-CNN. Siam R-CNN produces strong results for SOT and VOS, and performs especially well for long-term tracking.

OpenAccess:
PDF
(additional files)