A Bayesian Network Approach to Selected Problems in Speech Signal Processing
Language
Document Type
Issue Date
Issue Year
Authors
Editor
Abstract
The application of machine learning techniques to signal processing tasks has become of increasing interest in recent years. In particular, directed graphical models, named Bayesian networks, have shown to provide a powerful framework for deriving links between existing and new algorithms from a generalized point of view. This motivates to exploit a systematic Bayesian network approach in this thesis which is described as follows. A sequence of real-world observations is modeled to be produced by a set of latent random variables with unknown statistics. The underlying process producing the observations is described by a probabilistic model and its Bayesian network representation. This is the basis for acquiring information about the latent random variables by applying the steps of inference and decision. The described machine learning methodology will be consistently used to address two distinct speech signal processing tasks from a unifying Bayesian network perspective. First, the problem of single-channel Nonlinear Acoustic Echo Cancellation (NAEC) is considered with the goal to remove the acoustic coupling between a loudspeaker and a microphone. This leads to the derivation of the NLMS algorithms with fixed and optimum adaptive stepsize value as special cases of the Kalman filter. Furthermore, the Elitist Particle Filter based on Evolutionary Strategies (EPFES) is introduced as a new algorithm to estimate the parameters of a nonlinear acoustic echo path model. The experimental results for a synthesized scenario and real smartphone recordings illustrate that the EPFES is a promising method for NAEC. As a second application, the task of environmentally-robust Automatic Speech Recognition (ASR) is addressed by modeling acoustic features to be random variables instead of deterministic point estimates. This model is taken into account by modifying the acoustic-model scoring during the recognition phase. To this end, both a well-known and a new uncertainty decoding strategy are derived from a unifying Bayesian network perspective. The experimental evaluation shows that applying the proposed uncertainty decoding concept improves the recognition accuracy achieved by a powerful deep neural network-based ASR system.
Abstract
Seit einigen Jahren haben Ansätze des maschinellen Lernens in der Sprachsignalverarbeitung zunehmend an Bedeutung gewonnen. Hierbei wurden unter anderem die direktiven grafischen Modelle der Bayes'schen Netzwerke als ein mächtiges Werkzeug identifiziert, um Zusammenhänge zwischen bekannten und neuen Algorithmen aus einer generalisierten Sichtweise herzuleiten. Dementsprechend wird in dieser Dissertation ein systematischer Ansatz des maschinellen Lernens verwendet, welcher auf grafischer Modellierung mithilfe Bayes'scher Netzwerke basiert und wie folgt beschrieben werden kann. Es wird angenommen, dass eine Sequenz an realen Beobachtungen durch eine bestimmte Anzahl an latenten Zufallsvariablen erzeugt worden ist. Der zugrunde liegende stochastische Prozess wird durch ein probabilistisches Modell und dessen Bayes'sches Netzwerk beschrieben, um Informationen über die latenten Zufallsvariablen durch Anwendung der Schritte Inference und Decision zu erlangen. Die konsistente Verwendung der beschriebenen Methodik ermöglicht es zwei verschiedene Problemstellungen der Sprachsignalverarbeitung aus der generalisierenden Sichtweise der Bayes'schen Netzwerke zu beschreiben. Der erste Anwendungsfall ist die einkanalige nichtlineare akustische Echokompensation, bei der das Ziel verfolgt wird, die elekroakustische Kopplung zwischen einem Lautsprecher und einem Mikrofon zu kompensieren. Hierbei wird der NLMS-Algorithmus mit fester und optimaler adaptiver Schrittweite als Spezialfall des Kalman-Filters hergeleitet. Des Weiteren wird das sogenannte Elitist Particle Filter based on Evolutionary Strategies (EPFES) als ein neuer Ansatz zur Schätzung der Parameter eines nichtlinearen akustischen Echopfades vorgestellt. Die experimentellen Ergebnisse für ein synthetisiertes Szenario und reale Aufnahmen mit einem kommerziellen Smartphone bestätigen, dass das EPFES-Verfahren eine vielversprechende Methode für die nichtlineare akustische Echokompensation darstellt. Der zweite Anwendungsfall befasst sich damit, die Robustheit von Spracherkennungssystemen gegenüber Umwelteinflüssen, wie Nachhall oder Hintergrundrauschen, zu erhöhen. Hierfür werden akustische Merkmale nicht als deterministische Punktschätzungen sondern als Zufallsvariablen modelliert. Mithilfe der Sichtweise Bayes'scher Netzwerke führt dieses probabilistische Modell zur Herleitung eines bekannten und eines neuen Uncertainty Decoding-Verfahrens. In der experimentellen Auswertung wird aufgezeigt, dass die Anwendung des vorgeschlagenen Uncertainty Decoding-Konzeptes zur Verbesserung der Erkennungsraten eines mächtigen Spracherkennungssystems führt, welches auf tiefen neuronalen Netzen basiert.