Optimization of discriminative models for speech and handwriting recognition

Wiesler, Simon; Rigoll, Gerhard; Ney, Hermann

doi:10.18154/RWTH-2017-02972

Optimization of discriminative models for speech and handwriting recognition = Optimierung diskriminativer Modelle für Sprach- und Handschrifterkennung

Wiesler, Simon

2016 & 2017

Verantwortlichkeitsangabevorgelegt von Dipl.-Math. Simon Bernhard Wiesler

ImpressumAachen 2016

Umfang1 Online-Ressource (xiv, 154 Seiten) : Illustrationen, Diagramme

Dissertation, RWTH Aachen University, 2016

Druckausgabe: 2017. - Auch veröffentlicht auf dem Publikationsserver der RWTH Aachen University

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH* ; Rigoll, Gerhard (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2016-12-16

Online
DOI: 10.18154/RWTH-2017-02972
URL: http://publications.rwth-aachen.de/record/686775/files/686775.pdf
URL: http://publications.rwth-aachen.de/record/686775/files/686775.pdf?subformat=pdfa

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
automatic speech recognition (frei) ; machine learning (frei) ; acoustic modeling (frei) ; optimization (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Konventionelle Spracherkennungssysteme basieren auf Gauschen Hidden Markov Modellen. Diese Systeme werden typischerweise zuerst generativ trainiert, d.h. sie lernenein Modell des akkustischen Signals. In einem nachfolgenden diskriminativen Trainingsschrittwird direkt der Klassikator optimiert. Neuerdings ist bekannt, dass Spracherkennungssysteme basierend auf neuronalen Netzen konventionellen Systemen überlegen sind. Neuronale Netze, so wie sie in dieser Arbeit verwendet werden, sind diskriminativeModelle, d.h. sie benötigen keinen generativen Trainingsschritt. Das Lernen der Modellparameteraus Daten ist ein hochdimensionales Optimierungsproblem, welches das zentrale Thema dieser Arbeit ist. Weitere wissenschaftliche Beiträge beschäftigen sichmit verschiedenen Aspekten von Modellierung und Training, insbesondere Generalisierbarkeit,Modellstruktur und Trainingskriterium. Die Allgemeingültigkeit der Ergebnissedieser Arbeit wird durch deren Übertragung von Sprach- auf Handschrifterkennungsprobleme bestätigt.Im ersten Teil dieser Arbeit werden log-lineare Modelle, eine Unterklasse der neuronalen Netze, untersucht. Aufgrund ihrer achen Struktur ist ihr Training ein konvexes Optimierungsproblem.Wie unsere Experimente zeigen, erreicht schon dieser einfache Ansatzdie Resultate eines diskriminativ trainierten Gauschen Mischverteilungssystems. Des Weiteren wird eine theoretische Konvergenzanalyse des log-linearen Trainingsproblemshergeleitet. Der zweite Teil der Arbeit behandelt tiefe neuronale Netze. Zunächst wird die Machbarkeiteines kürzlich vorgeschlagenen Optimierungsalgorithmus zweiter Ordnung untersucht. Motiviert von diesen Ergebnissen wird ein neuer stochastischer Algorithmus entwickelt. Mit diesem Algorithmus können neuronale Netze mit einer Flaschenhalsstruktur(engl. bottleneck) direkt trainiert werden. Dieser Ansatz ermöglicht eine starkeReduktion der Modellgröße und somit eine Beschleunigung des Trainings und derAuswertung des Modells in der Erkennung. Darüberhinaus wirkt die Modellstruktur alsRegularisierung, wodurch die Erkennungsfehlerrate des Modells verbessert wird. Einweiterer Beitrag dieser Arbeit ist eine Untersuchung des diskriminativem Trainings auf Sequenzebene. Insbesondere bestätigt sich der Vorteil der Flaschenhalsstruktur auch in Kombination mit diesem Verfahren. Abschlieend beschreiben wir eine Software für neuronale Netze, die im Rahmendieser Arbeit als Teil des frei verfügbaren Spracherkennungssystems der RWTH Aachenimplementiert wurde.

Conventional speech recognition systems are based on Gaussian hidden Markov models. These systems are typically rst trained generatively, i.e. a model of the acoustic signalis learned. In a subsequent discriminative training step, the models are ne-tuned to directlyoptimize the classier. More recently, it has been found that neural network-based speech recognition systems outperform Gaussian mixture systems. Neural networks asconsidered in this work are discriminative models, i.e. they do not require a generativetraining step. Learning their parameters from data is a high-dimensional optimizationproblem. This optimization problem is the central topic of this thesis. Further contributionscover dierent aspects of modeling and training, such as generalization ability,model structure, and training criteria. The generality of our methods is conrmed bytransferring them from speech to handwriting recognition.In the rst part of this thesis, we study a sub-class of neural networks, known as loglinearmodels. Because of their shallow structure, their training is a convex optimizationproblem. Our experiments show that this conceptually simple approach already reachesperformance comparable to that of a discriminatively trained Gaussian mixture system. Furthermore, a theoretical convergence analysis of log-linear training is presented. The second part of the thesis deals with deep neural networks. First, the feasibilityof a recently proposed second-order batch optimization algorithm for large-scale tasksis investigated. Motivated by these results, a novel stochastic second-order optimizationalgorithm for neural network training is developed. This algorithm is capable ofoptimizing bottleneck networks from scratch. This allows for reducing the size of themodels considerably, thereby accelerating both the training and evaluation of the networks.Furthermore, the bottleneck structure acts as a regularization method, thus theaccuracy of the models is improved. Another contribution of this thesis is an investigationof sequence-discriminative training of neural networks, which in particular conrms the benet of the bottleneck structure in combination with this method. Finally, we describethe neural network training tool, which has been implemented within the scopeof this work as part of the the publicly available RWTH Aachen speech recognitiontoolkit.

OpenAccess:
PDF PDF (PDFA)
(additional files)