Time Warped Filter Banks and their Application for Frame Based Processing of Harmonic Audio Signals

Files
9266_StefanBayerDissertation.pdf (4.98 MB)
Veröffentlichungsfassung meiner Dissertation

Language
en
Document Type
Doctoral Thesis
Issue Date
2018-01-22
Issue Year
2017
Authors
Bayer, Stefan
Editor
Abstract

Filter banks and time-frequency transforms ideally provide sparse representations of harmonic signals. These sparse representations are only guaranteed for harmonic signals with a constant fundamental frequency. Real world harmonic signals often exhibit a varying fundamental frequency. This frequency modulation in combination with the window lengths in transforms or the length of the filters in filter banks leads to a less sparse or smeared representation of such signals in the frequency domain. Time warped transforms and filter banks could use a known information about the frequency modulation to provide a time warped mapping of the time domain signal where the modulation is reduced or ideally removed within one frame of the transform or filter bank. This mapping then leads again to a more sparse representation of the harmonic signal in the frequency domain. In this thesis I investigate the application of such time warped filter banks and transforms for known audio signal processing algorithms. The main focus is on such algorithms that have a memory or exploit inter-frame relationships, i. e. where past or more than one frequency domain representations are used to process a certain frame of the audio signal. For this I introduce a simple ratio that expresses the relation of the harmonic grids of two different spectral representations using the known fundamental frequency variation. This ratio I call harmonic ratio. Based on this ratio I present a simple basic algorithm for processing harmonic signals in the frequency domain using time-warped transforms and filter banks. Furthermore I extend two already existing signal processing algorithms using the time warped processing algorithm and assess the possible improvements of these extensions. The first extended algorithm is a context based arithmetic coder for an audio codec based on the Modified Discrete Cosine Transform (MDCT). In this arithmetic coder the context is partly derived from already coded spectral components of past frames. With the help of the harmonic ratio I adapt the past context to match the harmonic grid of the frame to be coded. This adaptation leads to a more efficient entropy coding of the spectral values. The second extended algorithm is the phase vocoder as a tool to modify a time scale, i.e. stretch or shrink a signal in time. The classic Discrete Fourier Transform (DFT) based phase vocoder shows problems with the estimation of the frequency of the individual sinusoidal components of a harmonic signal. Additionally it can not achieve the desired intra-frame frequency modulation in the synthesis. The extended phase vocoder based on the time warped discrete Fourier transform together with additional consideration of different harmonic ratios and the known variation of the fundamental frequency I present improves both the analysis and the synthesis of harmonic signals.

Abstract

Filterbänke und Zeit-Frequenz-Transformationen führen für harmonische Signale idealerweise zu einer dünn besetzen Darstellung im Frequenzbereich. Allerdings gilt dies nur wenn die einzelnen Komponenten oder Teiltöne konstante Frequenzen aufweisen. Reale harmonische Signale weisen allerdings im Allgemeinen veränderliche Frequenzen auf und diese Frequenzmodulation im Zusammenhang mit den Fensterlängen der Transformation führt zu suboptimalen, verschmierten Darstellungen der einzelnen Komponenten im Frequenzbereich. Zeitverzerrte Transformationen können eine vorhandene Information zur Frequenzmodulation nutzen um über eine zeitverzerrende Abbildung des Zeitsignals die Frequenzmodulation innerhalb eines Transformationsrahmens zu minimieren. Dies führt wieder zu der oben erwähnten dünn besetzten Darstellung des Signals im Frequenzbereich. Diese Arbeit untersucht die Anwendung solcher zeitverzerrter Filterbänke und Transformationen auf bekannte Audiosignalverarbeitungsalgorithmen. Dabei liegt der Fokus auf solche Verfahren die mehr als einen spektralen Rahmen zur gleichen Zeit bearbeiten. Dafür wird erst ein einfacher Kennwert eingeführt, der die Verhältnisse der harmonischen Raster zweier Spektraldarstellungen auf Basis der bekannten Grundfrequenzänderung ermittelt, das sogenannte harmonische Verhältnis. Basierend auf diesem harmonischen Verhältnis wird ein einfacher Grundalgorithmus für die gleichzeitige Verarbeitung mehrerer Spektren vorgestellt. Weiterhin werden zwei bereits beschriebene Signalverarbeitungsalgorithmen darauf untersucht, ob die Anwendung der zeitverzerrten Filterbänke zusammen mit dem Wissen über die Grundfrequenzänderung zu einer Verbesserung der Ergebnisse führt. Erstes Fallbeispiel ist ein kontextbasierter arithmetischer Entropiekodierer für ein Audiokodierverfahren basierend auf einer zeitverzerrten modifizierten diskreten Cosinustransformation. Der Kontext setzt sich zum Teil aus bereits kodierten Spektralanteilen aus zeitlich vorausgehenden Spektren zusammen. Diese werden mit Hilfe des harmonischen Verhältnisses an das harmonische Raster des zu kodierenden Spektrums angepasst. Diese Anpassung führt zu einer effizienteren Entropiekodierung der spektralen Werte. Zweites Fallbeispiel ist der Phasenvokoder als Mittel zur Streckung der Zeitskala. Hier zeigt sich das der klassische Phasenvocoder basierend auf der diskreten Fouriertransformation Probleme mit der Abschätzung der Frequenzen der einzelnen tonalen Komponenten eines Signals hat und weiterhin bei der Synthese die gewünschte Frequenzmodulation des Zielsignals nicht darstellen kann. Der vorgeschlagene Phasenvokoder auf Basis der zeitverzerrten diskreten Fouriertransformation unter Zuhilfenahme der Grundfrequenzänderung führt zu einer verbesserten Analyse und Synthese für harmonische Signale.

DOI
Faculties & Collections
Zugehörige ORCIDs