From Blind to Semi-Blind Acoustic Source Separation based on Independent Component Analysis

Language
en
Document Type
Doctoral Thesis
Issue Date
2022-08-25
Issue Year
2022
Authors
Brendel, Andreas
Editor
Publisher
Verlag Dr. Hut
ISBN
978-3-8439-5093-0
Abstract

Typical acoustic scenes consist of multiple superimposed sources, where some of them represent desired signals, but often many of them are undesired sources, e.g., interferers or noise. Hence, source separation and extraction, i.e., the estimation of the desired source signals based on observed mixtures, is one of the central problems in audio signal processing. A promising class of approaches to address such problems is based on Independent Component Analysis (ICA), an unsupervised machine learning technique. These methods enjoyed a lot of attention from the research community due to the small number of assumptions that have to be made about the considered problem. Furthermore, the resulting generalization ability to unseen acoustic conditions, their mathematical rigor and the simplicity of resulting algorithms have been appreciated by many researchers working in audio signal processing. However, knowledge about the acoustic scenario is often available and can be exploited to increase the performance of the source separation algorithm, e.g., the directions of arrival of the desired source signals relative to the observing microphone array.

In this thesis, the problem of acoustic source separation and extraction is treated by Convolutive Blind Source Separation (CBSS) approaches based on ICA. As a basis for the thesis, we show and investigate relations between two well-known CBSS algorithms, Independent Vector Analysis (IVA) and TRIple-N Independent component analysis for CONvolutive mixtures (TRINICON) theoretically and experimentally in the first part. Here, a special focus lies on the exploitable properties of the respective source signals. A crucial aspect of Blind Source Separation (BSS) is the development of optimization schemes that allow for fast and computationally efficient iterative minimization of the BSS cost function. In the second part of the thesis, we focus on optimization approaches based on the Majorize-Minimize (MM) principle, analyze state-of-the-art methods and propose a new optimization approach originating from a negentropy perspective. The proposed algorithm exhibits an improved convergence rate relative to state-of-the-art approaches and is shown to be numerically stable and computationally efficient. The last part of the thesis is dedicated to the derivation of a framework for Semi-Blind Source Separation (SBSS), i.e., source separation that supports BSS methods with prior knowledge, from a Maximum A Posteriori (MAP) perspective. We demonstrate the use of this framework by incorporating spatial prior knowledge that enables a solution to the outer permutation ambiguity and allows to even address underdetermined problems. Finally, the integration of a Background (BG) model allows to deal with overdetermined situations and yields computationally efficient update schemes.

Abstract

Akustische Szenen bestehen typischerweise aus mehreren sich überlagernden Quellen. Neben den erwünschten Quellen sind aber oft auch unerwünschte Quellen aktiv, z.B. interferierende Quellen oder Hintergrundrauschen. Deshalb stellen Quellentrennung und Quellenextraktion, d.h. die Schätzung der gewünschten Quellsignale basierend auf deren beobachteten Mischungen, zentrale Aufgabenstellungen der Audiosignalverarbeitung dar. Ein vielversprechender Ansatz für derartige Probleme sind auf Independent Component Analysis (ICA) basierende Methoden, einer Technik des unüberwachten maschinellen Lernens: Nur wenige Annahmen über das betrachtete Problem sind nötig, woraus eine hohe Generalisierbarkeit auf unbekannte Bedingungen resultiert. Auch die mathematische Stringenz und die Einfachheit der abgeleiteten Algorithmen sind als Vorteile zu nennen. Allerdings ist in vielen praktisch relevanten Situationen Vorwissen über die akustische Umgebung gegeben - z.B. die Einfallsrichtungen der Signale der Nutzquellen relativ zum beobachtenden Mikrophonarray. Dieses Vorwissen kann ausgenutzt werden, um die Leistungsfähigkeit von blinden Quellentrennungsverfahren (BSS) zu verbessern.

In dieser Arbeit wird das Problem der akustischen Quellentrennung und -extraktion durch konvolutive blinde Quellentrennungsverfahren (CBSS), die auf ICA beruhen, behandelt. Als Fundament der Arbeit werden im ersten Teil der Arbeit Beziehungen zwischen zwei vielbeachteten CBSS Algorithmen, Independent Vector Analysis (IVA) und TRIple-N Independent component analysis for CONvolutive mixtures (TRINICON), theoretisch und experimentell gezeigt. Ein spezielles Augenmerk liegt hierbei auf für BSS nutzbaren Signaleigenschaften. Ein entscheidender Aspekt in der Entwicklung erfolgre- icher BSS-Algorithmen sind schnell konvergierende und recheneffiziente Optimierungsverfahren. In diesem Sinne liegt der Fokus des zweiten Teils dieser Arbeit auf Optimierungstechniken, die auf dem Majorize-Minimize (MM)-Prinzip basieren. Aus einer Negentropie-Sichtweise wird ein neuer MM-Optimierungsansatz entwickelt, der schnelle Konvergenz, numerische Stabilität und hohe Recheneffizienz aufweist. Im dritten Teil der Arbeit wird ein halbblindes Quellentrennungssystem aus einer Maximum A Posteriori (MAP)-Perspektive hergeleitet, das die Quellentrennung mit Vorwissen unterstützt. Die Ein- bindung räumlichen Vorwissens, das die Lösung des äußeren Permutationsproblems und die Signalextraktion in unterbestimmten Fällen erlaubt, wird als Beispiel zur Verwendung dieses Systems diskutiert. Die Modellierung eines Hintergrunds‘ermöglicht die Behandlung überbestimmter Probleme und liefert recheneffiziente Optimierungsverfahren.

DOI
Faculties & Collections
Zugehörige ORCIDs