Adaptation to Varying Network Conditions and Conversation Patterns for Robust High Quality Audio Communication over the Internet Protocol

Language
en
Document Type
Doctoral Thesis
Issue Date
2018-01-29
Issue Year
2018
Authors
Issing, Jochen
Editor
Abstract

Narrow band communication is still widespread in existing VoIP clients despite the development of high quality communication codecs, like AAC-ELD and EVS. These new communication codecs allow for more natural speech through higher dynamic range and audio bandwidth, enabling more comfortable telecommunication. In this thesis we enable excellent audio quality in communication clients by integrating AAC-ELD and EVS into a VoIP client. The integration of such codecs, however, requires the revalidation of the existing VoIP client processing components to verify high subjective audio quality. We conduct this validation through the definition of objective metrics and listening tests. To implement Adaptive-Playout, we exploit the excellent packet loss concealment and robust structure of modern communication codecs and thereby reduce complexity in the VoIP receiver. In the case of heavy network artifacts we improve the average audio quality by introducing a new frame classifier with negligible performance cost. We develop a novel Adaptive Playout mechanism that finds the balance between low delay and minimal audio artifacts dynamically instead of using empirically chosen adaptation parameters. Therefore we assess the impact of delay and inter- activity on Conversational Quality. By conducting conversational tests we derive a statistical model describing the Conversational Quality as a function of delay and Conversational Interactivity. From these results we create an optimization model and integrate this optimization model into the communication system. We validate the quality of the adaptive communication system by conducting an- other run of conversational tests that provide clear preference towards the adaptive communication system for high and low interactivity conversations. Even though the results show room for improvement in the case of medium interactive conversations, the novel communication system is preferred by approximately 80 % of the test subjects for high interactivity conversations.

Abstract

Trotz der Entwicklung hochqualitativer Kommunikationscodecs wie AAC-ELD und EVS ist die Schmalbandkommunikation immer noch weit verbreitet. Dabei bilden gerade diese Kommunikationscodecs die menschliche Sprache natürlicher ab und erlauben einen höheren Dynamikumfang sowie eine größere Audiobandbreite, was wiederum eine komfortablere Telekommunikation ermöglicht. Im Zuge dieser Dissertation ermöglichen wir exzellente Klangqualität durch die Integration von AAC-ELD und EVS in einen VoIP-Client. Diese Integration erfordert allerdings eine Überprüfung der existierenden Verarbeitungsmodule des VoIP-Clients zur Vermeidung des Verlusts von Klangqualität. Zur Durchführung dieser Validierung definieren wir objektive Metriken und führen Hörtests durch. Zudem entwickeln wir einen Adaptive-Playout-Mechanismus, der die exzellente Fehlerverschleierung und die robuste Struktur moderner Kommunikationscodecs ausnutzt und die Komplexität im VoIP-Empfänger reduziert. Im Fall von schweren Netzwerkartefakten verbessern wir die mittlere Klangqualität durch die Entwicklung eines Signalklassifizierers bei vernachlässigbarem Zusatzaufwand. Wir entwickeln einen neuartigen Adaptive-Playout-Algorithmus der den Kompro- miss zwischen niedriger Verzögerung und minimalen Audio-Artefakten dynamisch findet, statt empirische Adaptations-Parameter anzuwenden. Daher bemessen wir anhand unseres hoch-qualitativen Kommunikationssystems den Einfluss von Verzö- gerung und Interaktivität auf die Gesprächsqualität. Mithilfe von Konversationstests leiten wir ein statistisches Modell ab, welches die Gesprächsqualität als Funktion von Verzögerung und Interaktivität abbildet. Anhand dieses Modells entwickeln wir eine Optimierungsfunktion und integrieren diese in unser Kommunikationssystem. Wir validieren die Qualität dieses adaptiven Kommunikationssystems durch weitere Konversationstests, welche eine klare Präferenz zum adaptiven Kommuni- kationssystem für Konversationen mit hoher und mittlerer Interaktivität belegen. Auch wenn die Ergebnisse Verbesserungsmöglichkeiten im Bereich der mittleren Interaktivität aufweisen, wird das adaptive Kommunikationssystem von annähernd 80 % der Testteilnehmer für Gespräche mit hoher Interaktivität bevorzugt.

DOI
Faculties & Collections
Zugehörige ORCIDs