Feedback Delay Networks in Artificial Reverberation and Reverberation Enhancement

Schlecht, Sebastian Jiro

Feedback Delay Networks in Artificial Reverberation and Reverberation Enhancement

Files

9345_SebastianJiroSchlechtDissertation.pdf (6.77 MB)

Language

en

Document Type

Doctoral Thesis

Issue Date

2018-02-05

Issue Year

2018

Authors

Schlecht, Sebastian Jiro

Abstract

In today's audio production and reproduction as well as in music performance practices it has become common practice to alter reverberation artificially through electronics or electro-acoustics. For music productions, radio plays, and movie soundtracks, the sound is often captured in small studio spaces with little to no reverberation to save real estate and to ensure a controlled environment such that the artistically intended spatial impression can be added during post-production. Spatial sound reproduction systems require flexible adjustment of artificial reverberation to the diffuse sound portion to help the reconstruction of the spatial impression. Many modern performance spaces are multi-purpose, and the reverberation needs to be adjustable to the desired performance style. Employing electro-acoustic feedback, also known as Reverberation Enhancement Systems (RESs), it is possible to extend the physical to the desired reverberation.

These examples demonstrate a wide range of applications where reverberation is created and enhanced artificially employing signal processing techniques. A major challenge of designing artificial reverberators is the high complexity of the physical reverberation process. Even small office spaces of 40 m^3 exhibit more than 10^7 acoustic modes, in concert halls the number of acoustic modes can surpass 10^9 in the audible range. The room geometry, as well as the interaction with the boundary materials, can be as well fairly complex. Whereas these complex considerations are mandatory for simulations of specific spaces, used for example for the acoustic and architectural planning of a concert venue, they are somewhat misleading in the realm of artistic applications. The focus on perceptually convincing artificial reverberation algorithms provides the freedom to make some simplifications to the generation process, leading to the recursive systems, which play a central role in this dissertation.

Two specific formulations of recursive systems for artificial reverberation are considered: Firstly, Feedback Delay Networks (FDNs) which are built around multiple delays which are fed back to their inputs and by this mimic the recursive process of sound waves bouncing back and forth in an acoustic space. And secondly, RESs, which are installed in rooms to extend the physical reverberation via electro-acoustic feedback between microphones and loudspeakers. The main objective of artificial reverberators is to recreate and enhance room impulse responses while considering three aspects: i) accurate recreation of physical spaces; ii) delivering perceptually convincing spaces; and iii) efficiency of processing and parameterization.

The primary goal of this dissertation is to achieve better control over the evolution of the artificial reverberation over time, namely the evolution of normal modes and reflections over time. The decay rate of normal modes most importantly determines the stability of the system, but also the perceptual quality of the artificial reverberation. For this purpose, existing network topologies for artificial reverberation are unified in the general FDN framework. For the FDN, an analytic formulation of the polynomial governing the recursive behavior is presented from which analytic constraints on the angular distribution of the decaying modes are derived. Lossless FDNs are commonly used as a design prototype for artificial reverberation algorithms for which all normal modes neither decay nor rise. The lossless property is dependent on the feedback matrix, which connects the output of a set of delays to their inputs, and the lengths of the delays. This work presents the most general class of feedback matrices which constitutes lossless FDNs regardless the lengths of the delays.

As a secondary goal, the temporal features of impulse responses produced by FDNs, i.e., the number of echoes per time interval and its evolution over time, are analyzed. This so-called echo density is related to known measures of mixing time and their psychoacoustic correlates such as perception of the room size. It is shown that the echo density of FDNs follows a polynomial function, whereby the polynomial coefficients can be derived from the lengths of the delays for which an explicit method is given. The mixing time of impulse responses can be predicted from the echo density, and conversely, the desired mixing time can be achieved by a derived mean delay length.

In the last part of this dissertation, a novel time-variant reverberation algorithm is introduced. By modulating the feedback matrix nearly continuously over time, an intricate pattern of concurrent amplitude modulations of the feedback paths evolves. It is demonstrated that the perceived quality of the decaying normal modes can be enhanced by the feedback matrix modulation. The same technique of time-varying feedback matrices is applied in multichannel sound systems to improve the system's stability. It is shown with a statistical approach that time-varying mixing matrices can achieve optimal stability improvement for a higher number of channels. A listening test demonstrates the improved quality of time-varying mixing matrices over comparable existing techniques.

Abstract

In der heutigen Audioproduktion und -wiedergabe sowie in der musikalischen Aufführungspraxis ist es allgemein üblich geworden, den Nachhall künstlich mittels Elektronik oder Elektroakustik zu verändern. Für Musikproduktionen, Hörspiele und Film-Soundtracks wird der Ton oft in kleinen Studioräumen mit wenig bis keinem Nachhall aufgenommen, sowohl aus Platzgründen als auch um ein kontrolliertes Umfeld zu gewährleisten, so dass der künstlerisch beabsichtigte räumliche Eindruck bei der Postproduktion hinzugefügt werden muss. Räumliche Klangwiedergabesysteme erfordern eine flexible Anpassung des künstlichen Nachhalls an den diffusen Klanganteil, um die Rekonstruktion des räumlichen Eindrucks zu unterstützen. Viele moderne Aufführungsräume werden vielseitig eingesetzt und der Nachhall muss dem gewünschten Aufführungsstil angepasst werden. Durch den Einsatz elektro-akustischer Rückkopplungen, auch Nachhallverlängerungssysteme genannt, ist es möglich, den physikalischen Nachhall auf die gewünschte Dauer zu verlängern.

Diese Beispiele zeigen eine breite Palette von Anwendungen, bei denen Nachhall erzeugt und mittels Signalverarbeitung verbessert wird. Eine große Herausforderung bei der Konstruktion künstlicher Nachhallgeräte ist die hohe Komplexität des physikalischen Nachhallprozesses. Selbst kleine Büroflächen von 40 m^3 weisen mehr als 10^7 akustische Moden auf; in Konzerthallen kann die Anzahl akustischer Moden im hörbaren Spektrum 10^9 übertreffen. Sowohl die Raumgeometrie als auch die Wechselwirkung mit den Raumbegrenzungsmaterialien kann außerordentlich komplex sein. Während diese komplexen Betrachtungen für Simulationen spezifischer Räume, die beispielsweise für die akustische und architektonische Planung eines Konzerthauses verwendet werden, obligatorisch sind, sind sie im Bereich der künstlerischen Anwendungen eher irreführend. Der Fokus auf perzeptiv überzeugende künstliche Nachhallalgorithmen bietet die Freiheit, einige Vereinfachungen für den Erzeugungsprozess zu erlauben. Dies führt zu den rekursiven Systemen, die eine zentrale Rolle in dieser Dissertation spielen.

In dieser Arbeit konzentrieren wir uns auf zwei spezifische Formulierungen rekursiver Systeme für die Erzeugung von künstlichen Nachhall: Erstens die Rückkopplungsverzögerungsnetzwerke, basierend auf mehreren Verzögerungselementen deren Ausganssignale gemischt an ihre Eingänge zurückgeführt werden. Hiermit wird der rekursive Prozess der Schallwellen, die in einem akustischen Raum hin- und her reflektiert werden, nachgeahmt. Und zweitens die Nachhallverlängerungssysteme, die in Räumen installiert werden, um den physikalischen Nachhall über elektroakustische Rückkopplungen zwischen Mikrofonen und Lautsprechern zu erweitern. Das Hauptziel künstlicher Nachhallalgorithmen besteht darin, Raumimpulsantworten unter drei oft konkurrierenden Gesichtspunkten nachzubilden und zu verbessern: i) Physikalisch exakte Nachbildung des Raumklangs; ii) Generieren von perzeptiv überzeugendem Raumklang; und iii) Effizienz der Signalverarbeitung und Parametrisierung.

Das erste Ziel dieser Dissertation ist es, eine bessere Kontrolle über die Evolution des künstlichen Nachhalls über die Zeit zu erlangen, im Speziellen die Evolution von Raummoden und Reflexionen über die Zeit. Die Abklingrate der Raummoden bestimmt zunächst die Stabilität des Systems, aber auch die wahrgenommene Qualität des künstlichen Nachhalls. Zu diesem Zweck werden bestehende Netzwerktopologien für künstliche Nachhallalgorithmen als Rückkopplungsverzögerungsnetzwerke vereinheitlicht. Für die Rückkopplungsverzögerungsnetzwerke wird dann ein Polynom, welches das rekursive Verhalten beschreibt, bestimmt. Aus der analytischen Form dieses Polynoms können dann analytische Beschränkungen der Winkelverteilung der abklingenden Moden abgeleitet werden. Verlustfreie Rückkopplungsverzögerungsnetzwerke werden häufig als Entwurfsprototyp für künstliche Nachhallalgorithmen verwendet da alle Moden weder abfallen noch ansteigen. Die verlustfreie Eigenschaft ist abhängig von der Rückkopplungsmatrix, die den Ausgang der Verzögerungselemente mit ihren Eingängen verbindet, und der Länge der Verzögerungen. Diese Arbeit präsentiert die allgemeinste Klasse von Rückkopplungsmatrizen, die verlustfreie Rückkopplungsverzögerungsnetzwerke unabhängig von der Länge der Verzögerungen garantiert.

Als zweites Ziel werden die zeitlichen Merkmale von Impulsantworten, die durch Rückkopplungsverzögerungsnetzwerke erzeugt werden, d.h. die Anzahl der Reflexionen pro Zeitintervall und ihre Entwicklung über die Zeit, analysiert. Diese sogenannte Reflexionsdichte bezieht sich auf bekannte Maßen der Mischzeit und ihrer psychoakustischen Korrelate wie z.B. die Wahrnehmung der Raumgröße. Es wird gezeigt, dass die Reflexionsdichte von Rückkopplungsverzögerungsnetzwerken einer Polynomfunktion folgt, wobei die Polynomkoeffizienten aus den Längen der Verzögerungen abgeleitet werden können. Hierfür wird eine explizite Methode angegeben. Die Mischzeit von Impulsantworten kann aus der Reflexionsdichte vorhergesagt werden, und umgekehrt kann eine gewünschte Mischzeit durch eine abgeleitete mittlere Verzögerungslänge erreicht werden.

Im letzten Teil dieser Dissertation wird ein neuartiger zeitvarianter Nachhallalgorithmus vorgestellt. Durch nahezu kontinuierlichem modulieren der Rückkopplungsmatrix über die Zeit entwickelt sich ein komplexes Zusammenspiel von gleichzeitigen Amplitudenmodulationen der Rückkopplungspfade. Es wird gezeigt, dass die wahrgenommene Qualität der abklingenden Moden durch die Rückkopplungsmatrixmodulation verbessert werden kann. Die gleiche Technik der zeitvariablen Rückkopplungsmatrizen wurde in Mehrkanal-Lautsprechersystemen angewendet, um die Stabilität des Systems zu verbessern. Es wird mit einem statistischen Ansatz gezeigt, dass zeitveränderliche Mischmatrizen eine optimale Stabilitätsverbesserung für eine höhere Anzahl von Kanälen erreichen können. Ein Hörtest demonstriert die verbesserte Qualität zeitlich variierender Mischmatrizen gegenüber vergleichbaren Techniken.