h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Low latency technology for interactive virtual environments = Niedrig-Latenz-Technologie für interaktive virtuelle Umgebungen



Verantwortlichkeitsangabevorgelegt von Ingo Assenmacher

ImpressumAachen : Publikationsserver der RWTH Aachen University 2009

Umfang148 S. : : Ill., graph. Darst.


Aachen, Techn. Hochsch., Diss., 2009


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2009-02-05

Online
URN: urn:nbn:de:hbz:82-opus-27136
URL: https://publications.rwth-aachen.de/record/50614/files/Assenmacher_Ingo.pdf

Einrichtungen

  1. Virtual Reality Group (124170)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Virtuelle Realität (Genormte SW) ; Latenz (Genormte SW) ; Interaktion (Genormte SW) ; Immersion <Virtuelle Realität> (Genormte SW) ; Akustik (Genormte SW) ; Informatik (frei) ; PC Cluster Rendering (frei) ; Gerätearchitektur (frei) ; virtual reality (frei) ; latency (frei) ; interaction (frei) ; immersion (frei) ; acoustics (frei)

Thematische Einordnung (Klassifikation)
DDC: 004
ccs: I.3.7 * I.3.2 * I.3.4 * J.7

Kurzfassung
Die Minimierung von System Latenz ist traditionell ein wichtiges Thema bei der Entwicklung von multi-modalen virtuellen Umgebungen. Zur Erstellung von virtuellen Umgebungen mit einem hohen Maß an Glaubhaftigkeit für den Nutzer müssen menschliche Wahrnehmungsschwellen berücksichtigt werden. Die Systemlatenz muss daher im Bereich von Millisekunden liegen. Dies deutet bereits darauf hin, dass schnelle Schnittstellen und Systeme mit wenig zusätzlichem Aufwand benötigt werden. Diese Arbeit beschreibt einen umfassenden Ansatz zur Erzeugung von multi-modalen virtuellen Umgebungen welche hohe Anforderungen an niedrige Latenz stellen, dabei aber abstrakte, flexible und Echtzeit-fähige Schnittstellen zur Gerätedatenverarbeitung sowie vielfältige Mechanismen zur Gestaltung von Anwendungen benötigen. Das System „Virtueller Kopfhörer“ (VirKopf) ist ein Repräsentant einer anspruchsvollen multi-modalen Umgebung. Es wurde als gemeinschaftliches Forschungsprojekt zwischen dem Institut für Technische Akustik und der VR Gruppe an der RWTH Aachen entwickelt. Die binaurale Wiedergabe von virtuellen Klängen ist eine wesentliche Komponente des Systems. Diese erlaubt die Platzierung von Klangobjekten an beliebigen 3-D Positionen in der Szene, auch sehr nah am Kopf des Benutzers. Die räumliche Klangwiedergabe wird durch dynamische Übersprechkompensation auch ohne die Nutzung von Kopfhörern möglich. Diese Eigenschaft erlaubt den Einsatz in immersiven Umgebungen. In solchen System müssen die Anforderungen an einen genauen Aufbau und sorgfältige Datenverarbeitung unbedingt respektiert werden. So ist es zum einwandfreien Betrieb der dynamischen Übersprechkompensation zwingend notwendig, ein aktuelles Tracking Datum mit niedriger Latenz an alle Teilsysteme zu übermitteln. Die Übersprechkompensation reproduziert auf dieser Basis ein der aktuellen Kopfposition angepasstes Klangfeld mit einem begrenzten Gültigkeitsbereich (sweet-spot). In einem dynamischen System, in der sich der Benutzer frei bewegen darf, muss der sweet-spot kontinuierlich aktualisiert werden, in Abhängigkeit von der Position der Ohren des Benutzers. Diese wird wiederum vom Tracking System ermittelt. Durch die diskrete Verarbeitung entsteht ein Unterschied zwischen der im System angenommenen und der tatsächlichen Position des Benutzers. Ein Unterschied zwischen diesen Positionen von mehr als 1~cm kann zu hörbaren Artefakten für den Zuhörer führen. Dies ist eine harte Einschränkung, da ein Unterschied bereits durch die fast konstante Laufzeit der Schallwellen von den Lautsprechern zum Ohr des Benutzers im System existiert. Diese Latenz liegt im Bereich von Millisekunden und kann nicht durch schnelleres Tracking kompensiert werden. Prädiktives Tracking kann dazu benutzt werden, um die zukünftige Position der Ohren des Benutzers zu bestimmen, auf Basis von Beobachtungen aus der lokalen Vergangenheit. Diese Algorithmen können allerdings nicht beliebig in die Zukunft schätzen, so dass eine niedrige Systemlatenz unabdingbar ist, um die Kompensation erfolgreich durchzuführen. Diese Anforderung ist nicht nur wichtig für das VirKopf System, sondern eine generelle Eigenschaft von Software zur Erstellung von Virtueller Realität (VR). Ganz speziell gilt dies für Geräte-Behandlung und Interaktions-Verarbeitung. Zu diesem Zweck stellt diese Arbeit eine vielseitige, flexible und Laufzeit-optimale VR Geräte Architektur vor. Sie ermöglicht parallelen Zugriff auf multi-modale Datenströme, bei niedriger Latenz. Zudem kann erweitere Interaktion auf der Basis von Historien entwickelt werden, die direkt von der Geräteschicht angeboten werden. Die Architektur unterstützt erweiterte Transformations- und Anwendungsschnittstellen, und dadurch eine vereinfachte Programmierung für Anwendungen. Der oben beschriebene Unterschied bei der Schätzung der aktuellen Position des Benutzers in der virtuellen Szene wird durch einen prädiktiven Tracking Algorithmus mit dynamischer Adaption verkleinert. Die vorgeschlagene Lösung basiert lediglich auf der Betrachtung der lokalen Entwicklung der Geschwindigkeit der verwendeten Tracking Sensoren. Die Kopplung des visuellen VR Systems mit der akustischen Gegenseite als Netzwerkarchitektur wird in dieser Arbeit definiert und ihre Eingenschaften diskutiert. Hierbei sind besonders die Kosten für den Netzwerktransport in Bezug auf die audio-visuelle Kopplung interessant. Zusätzlich zu den genannten Eigenschaften wird eine Anwendungsarchitektur zur Entwicklung von multi-modalen virtuellen Umgebungen vorgestellt. Dieser Ansatz beschreibt Umgebungen als Sammlung von kommunizierenden Agenten mit dynamischen Eigenschaften. Zur visuellen Wiedergabe in CAVE-artigen Umgebungen wird ein PC Cluster Rendering Ansatz entwickelt. Dieser basiert auf einer hybriden Master/Slave Architektur, welche in Bezug auf niedrige Latenz verfeinert wird.

Minimizing system latency is a traditionally important topic for the development of multi-modal Virtual Environments (VE). Human perception thresholds have to be met in order to create immersive environments with a high degree of believability. The system latency has to be in the range of milliseconds, indicating the need for fast interfaces and low system overhead. This thesis provides a comprehensive approach to the creation of multi-modal VEs with high requirements on low latencies, abstract and flexible, yet real-time capable interfaces for device data handling and versatile application support mechanisms. In that sense it offers a stable software and conceptual basis for the development of appealing multi-modal environments. The “Virtueller Kopfhörer” (VirKopf) system is a representative of a demanding multi-modal environment that was developed as a joint research project between the Institute of Technical Acoustics and the VR Group at the Department of Computer Science at RWTH Aachen University. It features binaural acoustics, which enables the placing of virtual sounds at arbitrary 3-D positions within the scene, even very close to the user's head. Headphone-less reproduction is supported by dynamic crosstalk cancellation (CTC). The system is designed for immersive CAVE-like environments. As a cost for this comprehensive system, the requirements for a precise setup and accurate data processing have to be respected very carefully. For example, delivering the correct tracking data with a low latency is most crucial for the successful application of the dynamic CTC. By using CTC, a sweet spot is created, providing a correct sound field impression for the user. In a dynamic system, where the user is free to move arbitrarily, this sweet spot is constantly updated to the current position of the ears of the user, which in term is determined by a tracking device. Due to the discrete processing, a misalignment between the assumed and real position of the user's ears can occur. A misalignment between these positions of above 1 cm is enough to cause audible artefacts for the listener, disrupting the 3-D impression of the auralized scene. This is a severe constraint, as practically the runtime of the sound waves from the loudspeakers to the user's ears can take several milliseconds, and this can not be compensated by faster tracking hardware. Predictive tracking can be used to estimate a future position of the user's ears based on observations from the past. However, these algorithms can not forecast arbitrarily into the future and a low latency system support is a mandatory precondition for a successful application. Low latency processing is not only important for the VirKopf system, but a general requirement on VR software, especially for device and interaction handling. A versatile, flexible and runtime optimal VR device driver architecture is introduced. This architecture enables the parallel low-latency data access for multi-modal data streams and enhanced interaction algorithms as it supports driver-level histories. Additionally, the architecture suggests enhanced transformation and application stages which simplify the application development for the field of VR. The resulting misalignment of the estimation of the user's head in the virtual scene is lowered by an adaptive predictive tracking algorithm. The suggested solution features an on-line update strategy based solely on the local development of the tracking sensor's velocity. The coupling of a visual VR system with its acoustic counterpart as a network communication architecture is defined and its capabilities explained. The cost of end-to-end latency with respect to this audio-visual coupling architecture is inspected and discussed in detail. In addition to the optimized system behavior, an application architecture for multi-modal VEs is described. This approach models VEs as a collection of communicating agents, enabling the building of versatile interactive, multi-modal virtual worlds. A cluster rendering scheme based on a hybrid master-slave architecture is introduced. This approach is furthermore optimized for a minimal latency state processing from master to slave.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT015862382

Interne Identnummern
RWTH-CONV-113150
Datensatz-ID: 50614

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
124170

 Record created 2013-01-25, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)