Loading…
Thumbnail Image

Advances in Sprite-based Video Coding - Towards Universal Usability

Kunter, Matthias

Diese Dissertation präsentiert neuartige Ansätze und erweiterte Techniken zur Kodierung digitaler Videos mittels Hintergrundsprites bzw. Hintergrundmosaiken. Sprites stellen visuelle Zusammenfassungen des starren Hintergrunds einer aufgenommenen Szene dar. Sie werden in übergroßen Bildern repräsentiert, welche möglichst keine Vordergrundobjekte enthalten. Diese Art der Redundanzreduktion ist ideal für die Videokodierung, da die gesamte Hintergrundinformation in dem Sprite und einigen wenigen Projektionsparametern enthalten ist. Die Erstellung von Hintergundsprites ist allerdings nur für ganz bestimmte Szenen möglich. Da eine erfolgreiche Kodierstrategie vor allem universell, also für jede Art von Videomaterial einsetzbar sein soll, liegt das Hauptaugenmerk dieser Arbeit auf der Entwicklung von Techniken, welche die Möglichkeiten der spritebasierten Videokodierung erweitern. Erste Ansätze, wie sie schon im MPEG-4 Standard festgelegt wurden, finden aufgrund des Mangels an Universalität in der Praxis leider keine Anwendung. Hierfür werden in dieser Arbeit vor allem Verfahren zur multiplen Spritegenerierung und zur automatischen Segmentierung der sich unabhängig bewegenden Fordergrundobjekte vorgestellt. Während multiple Sprites die Erzeugung degenerierter Sprites verhindern und gleichzeitig den Einfluss geometrischer Verzerrungen bei der Projektion minimieren, ermöglicht die Segmentierung eine automatische Trennung von Hintergrund und Vordergrund und bildet somit eine wesentliche Grundlage zur objektbasierten Videokodierung. Die hier vorgestellten Segmentierungstechniken bauen direkt auf bereits erstellten Hintergrundsprites auf und lassen sich daher sehr gut den Gesamtprozess der Kodierung integrieren. Einen weiteren wichtigen Aspekt dieser Dissertation bildet die qualitative Verbesserung der Hintergrundmodellierung mittels Sprites. Da moderne hybride Kodierverfahren sehr effizient sind und qualitativ hochwertige Ergebnisse liefern, muss die Qualität herkömmlicher spritebasierter Prädiktion des Hintergrunds erheblich verbessert werden. Hierfür werden exakte Bildregistrierungs- und Spritegenerierungsverfahren vorgestellt. Dabei wird vor allem die Möglichkeit der Superresolution ausgenutzt. Da die Diskretisierung der visuellen Information bei der Videoaufnahme mehrfach und mit verschiedenen Abtastmustern erfolgt, können mehrere Bilder einer Szene zur Erhöhung der Auflösung des Sprites genutzt werden. Dies wirkt sich positiv sowohl auf die Kodierqualität als auch auf das Verhältnis von Qualität zu Übertragungsrate aus. Letztendlich werden zwei Techniken zur spritebasierten Videokodierung vorgestellt, welche die präsentierten Ansätze zur verbesserten Universalität und Qualität der Hintergrundmosaike verwenden. Der erreichte Kodiergewinn gegenüber neuesten Standardkodierverfahren bestätigt dabei die Nützlichkeit dieser Methoden. Eine vollständig universelle Kodierung jeglichen Videomaterials kann damit noch nicht erreicht werden, ein möglichst vollständiges System hierzu wird aber bereits skizziert. Diese Arbeit liefert somit einen Beitrag zu einem allmählichen Paradigmenwechsel in der Videokodierung, bei dem in zunehmendem Maße Werkzeuge der Computer Vision und der Computergrafik benutzt werden, um verschiedene Teile eine Videoszene unterschiedlich zu kodieren.
This dissertation presents new approaches end extended techniques for the coding of digital video using background sprites, also called background mosaics. Sprites form a visual summarization of the rigid background of a captured scene shot. They are represented in oversized images, which preferably do not contain any foreground objects. This type of redundancy reduction is an ideal tool for video coding since the complete background information can be stored in the sprite image and some additional projection parameters. However, the generation of sprites is only possible for certain scenes. Since a successful coding strategy has to be universally applicable, the development of techniques for facilitating a broader use of sprite-based video coding represents the main focus of this thesis. Early approaches, as the one adopted in the MPEG-4 standard, have not been utilized due to the lack of universality and usability. For this purpose, we present techniques for the generation of multiple sprites and provide automatic segmentation approaches for the independently moving foreground objects. While multiple sprites prevent the construction of degenerated sprites and simultaneously minimize the impact of geometrical distortions, the segmentation enables the automatic discrimination in foreground and background objects. Thus, it is a fundamental tool for object-based video coding. The presented segmentation techniques are built upon the background sprites and thus, are easy to integrate into the overall coding process. The improvement of the background modeling using sprites marks another important aspect of this dissertation. Since state-of-the-art hybrid coding strategies work very efficient and yield high quality results, the prediction quality of the background using sprites has to be improved remarkably. In order to achieve this goal, we present novel image registration and sprite generation algorithms. Especially the potential of super-resolution processing will be exploited. Due to the capturing process, we obtain several differently sampled versions of the same image content. This fact can be used for the construction of background sprites of enhanced resolution, which has a positive influence on the resulting coding quality as well as on the rate-distortion results. Eventually, two techniques for sprite-based video coding are presented. Both approaches utilize above mentioned tools for improving quality and universality of the sprites. The coding gain over latest standards proves their usefulness. A complete coding system for the processing of any video content is still not achieved, but an outlook of its possible architecture is drafted. Thus, this thesis contributes to a gradual change of the video coding paradigm, where additional instruments from computer vision and computer graphics are utilized to unequally encode independent parts of a video scene.