Discriminative training and acoustic modeling for automatic speech recognition

Macherey, Wolfgang; Ney, Hermann

doi:29983

Discriminative training and acoustic modeling for automatic speech recognition = Diskriminatives Training und akustische Modellierung für die automatische Spracherkennung

Macherey, Wolfgang (Author)

2010

Verantwortlichkeitsangabevorgelegt von Wolfgang Macherey

ImpressumAachen : Publikationsserver der RWTH Aachen University 2010

UmfangVII, 200 S. : graph. Darst.

Aachen, Techn. Hochsch., Diss., 2010

Zusammenfassung in engl. und dt. Sprache

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2010-03-09

Online
URN: urn:nbn:de:hbz:82-opus-32093
URL: https://publications.rwth-aachen.de/record/50613/files/3209.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
Automatische Spracherkennung (Genormte SW) ; Maschinelles Lernen (Genormte SW) ; Mustererkennung (Genormte SW) ; Informatik (frei) ; diskriminatives Training (frei) ; diskriminative Lernverfahren (frei) ; akustische Modellierung (frei) ; Wortgraphen (frei) ; automatic speech recognition (frei) ; discriminative training (frei) ; acoustic modeling (frei) ; word lattices (frei) ; minimum error rate training (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Diskriminative Lernverfahren haben sich zu einem wichtigen Instrument der Parameterschätzung in vielen Mustererkennungsaufgaben entwickelt. Während konventionelle, auf dem Maximum Likelihood Prinzip basierende Verfahren die Modellparameter nur klassenindividuell schätzen, berücksichtigen diskriminative Verfahren auch klassenfremde Trainingsdaten und führen so zu einer verbesserten Klassentrennbarkeit, was sich oftmals in einer niedrigeren Fehlerrate niederschlägt. Motiviert durch Lernverfahren, die in dem Bereich der neuronalen Netze entwickelt worden sind, haben sich diskriminative Methoden inzwischen als Trainingsverfahren in komplexen Klassifikationsproblemen wie die automatische Spracherkennung etabliert. In dieser Arbeit wird ein erweiterter, vereinheitlichender Ansatz für eine Klasse diskriminativer Trainingskriterien vorgestellt, der neben dem Maximum Mutual Information Kriterium und dem Minimum Classification Error Kriterium weitere Kriterien wie zum Beispiel das Minimum Word Error Kriterium oder das hiermit nah verwandte Minimum Phone Error Kriterium umfasst. Der neue Ansatz ermöglicht es, die genannten sowie zahlreiche weitere Kriterien in einer einheitlichen Theorie darzustellen und somit zu klaren Aussagen in der theoretischen sowie experimentellen Performanzanalyse zu kommen. In dieser Arbeit wird ferner die erste erfolgreiche Implementierung eines rein Wortgraph-basierten MCE Trainings für großes Vokabular vorgestellt. Experimente, die auf zahlreichen Spracherkennugskorpora durchgeführt wurden, zeigen, dass die mit Hilfe des MCE Kriteriums erzielten Performanzen in derselben Größenordnung liegen wie die mit dem MWE und dem MPE Kriterium erzielten Fehlerraten, beziehungsweise diese sogar zu übertreffen vermögen. Das Parameteroptimierungsproblem wird für Hidden Markov Modelle mit Gaußschen Mischverteilungsdichten formuliert, wobei die Reestimationsgleichungen als auch die Wahl der Iterationskonstanten für die Fälle diskutiert werden, dass entweder voll besetzte oder diagonale Kovarianzmatrizen verwendet werden. Die Kovarianzmatrizen können hierbei als gemeinsamer Parameter in die Mischverteilungsdichten beliebiger Zustände eingehen (sogenannte Varianz tying Schemata). Speziell für den Fall voll besetzer Kovarianzmatrizen wird gezeigt, dass die Wahl der Iterationskonstanten im erweiterten Baum (EB) Algorithmus auf die Lösung eines quadratischen Eigenwertproblemes zurückgeführt werden kann. Zwei neue Methoden zur Wahl der Iterationskonstanten werden vorgeschlagen, die unabhängig vom verwendeten Varianz tying Schema zu einer schnelleren Konvergenzrate führen als dies beispielsweise mit dem traditionellen EB Algorithmus möglich ist. In dieser Arbeit wird darüber hinaus ein neuer Ansatz vorgestellt, der eine direkte Beschreibung der Posterior-Verteilung mittels eines log-linearen Modells ermöglicht. Es wird gezeigt, dass das direkte Modell dem Prinzip der Maximalen Entropie folgt und mit Hilfe des Generalized Iterative Scaling (GIS) Algorithmus effektiv trainiert werden kann. Das direkte Modell sowie die Optimierung mittels des GIS Algorithmus werden analytisch und experimentell mit dem MMI Kriterium sowie dem EB Algorithmus verglichen. Schließlich wird in dieser Arbeit ein neuer Algorithmus vorgestellt, mit dessen Hilfe sich die exakte und ungeglättete Fehleroberfläche sämtlicher in einem Wortgraphen repräsentierten Satzhypothesen berechnen und speichern lässt, falls alle möglichen Parameterkonstellationen eines log-linearen Modells, die auf einer beliebigen Geraden im Parameterraum liegen, betrachtet werden. Während die Anzahl der in einem Wortgraphen repräsentierten Satzhypothesen exponentiell in der Größe des Wortgraphen ist, wird gezeigt, dass die Komplexität einer solchen Fehleroberfläche stets linear in der Anzahl der Kanten des Wortgraphen beschränkt ist. Diese Schranke ist unabhängig vom betrachteten Fehlermaß. Experimente wurden auf verschiedenen, standardisierten Spracherkennungskorpora mit unterschiedlichem Schwierigkeitsgrad durchgeführt, die von elementarer Verbundziffernkettenerkennung (SieTill) über gelesene Meldungen aus Writschaftsfachblättern (Wall Street Journal und North American Business News) bis hin zur automatischen Verschriftung von Rundfunknachrichten (Hub-4) reichen. Die hierbei untersuchten Fragestellugen betreffen den Einfluss verschiedener Varianzmodelle auf die Erkennungsperformanz sowie den Effekt, den eine Zunahme der Modellkomplexität auf die zu erwartende Erkennugsfehlerrate ausübt. Sämtliche Untersuchungen wurden im erweiterten, vereinheitlichenden Ansatz für eine Reihe verschiedener diskriminativer Kriterien durchgeführt.

Discriminative training has become an important means for estimating model parameters in many statistical pattern recognition tasks. While standard learning methods based on the Maximum Likelihood criterion aim at optimizing model parameters only class individually, discriminative approaches benefit from taking all competing classes into account, thus leading to enhanced class separability which is often accompanied by reduced error rates and improved system performance. Motivated by learning algorithms evolved from neural networks, discriminative methods established as training methods for classification problems such as complex as automatic speech recognition. In this thesis, an extended unifying approach for a class of discriminative training criteria is suggested that, in addition to the Maximum Mutual Information (MMI) criterion and the Minimum Classification Error (MCE) criterion, also captures other criteria more recently proposed as, for example, the Minimum Word Error (MWE) criterion and the closely related Minimum Phone Error (MPE) criterion. The new approach allows for investigating a large number of different training criteria within a single framework and thus to yield consistent analytical and experimental results about their training behavior and recognition performance. This thesis also presents the first successful implementation of a large scale, lattice-based MCE training. Experiments conducted on several speech recognition corpora show that the MCE criterion yields recognition results that are similar to or even outperform the performance gains obtained with both the MWE and the MPE criterion. The parameter optimization problem is discussed for Gaussian mixture models where the covariance matrices can be subject to arbitrary tying schemes. The re-estimation equations as well as the choice of the iteration constants for controlling the convergence rate are discussed for the case that full or diagonal covariance matrices are used. In case of full covariance matrices, the problem of choosing the iteration constants in the Extended Baum (EB) algorithm is shown to result in the solution of a quadratic eigenvalue problem. Two novel methods on setting the iteration constants are proposed that provide faster convergence rates across different variance tying schemes. This thesis also suggests a novel framework that models the posterior distribution directly as a log-linear model. The direct model follows the principle of Maximum Entropy and can effectively be trained using the Generalized Iterative Scaling (GIS) algorithm. Both the direct model and its optimization via the GIS algorithm are compared analytically and experimentally with the MMI criterion and the EB algorithm. Finally, this thesis presents a novel algorithm to efficiently compute and represent the exact and unsmoothed error surface over all sentence hypotheses that are encoded in a word lattice if all parameter settings of a log-linear model are considered that lie along an arbitrary line in the parameter space. While the number of sentence hypotheses encoded in a word lattice is exponential in the lattice size, the complexity of the error surface is shown to be always linearly bounded in the number of lattice arcs. This bound is independent of the underlying error metric. Experiments were conducted on several standardized speech recognition tasks that capture different levels of difficulty, ranging from elementary digit recognition (SieTill) over read speech (Wall Street Journal and North American Business news texts) up to broadcast news transcription tasks (Hub-4). Questions pursued in this context address the effect that different variance tying schemes have on the recognition performance and to what extent increasing the model complexity affects the performance gain of the discriminative training procedure. All experiments were carried out in the extended, unifying approach for a large number of different training criteria.

Fulltext:
PDF