A log-linear discriminative modeling framework for speech recognition

Heigold, Georg; Ney, Hermann

doi:910021272

A log-linear discriminative modeling framework for speech recognition = Log-lineare und diskriminative Modellierungsansätze für die Spracherkennung

Heigold, Georg (Author)

2010

VerantwortlichkeitsangabeGeorg Heigold

ImpressumAachen : Publikationsserver der RWTH Aachen University 2010

UmfangXIV, 191 S. : graph. Darst.

Aachen, Techn. Hochsch., Diss., 2010

Zsfassung in dt. und engl. Sprache

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2010-06-29

Online
URN: urn:nbn:de:hbz:82-opus-33012
URL: https://publications.rwth-aachen.de/record/51838/files/3301.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
Automatische Spracherkennung (Genormte SW) ; Maschinelles Lernen (Genormte SW) ; Optische Zeichenerkennung (Genormte SW) ; Hidden-Markov-Modell (Genormte SW) ; Transduktor <Automatentheorie> (Genormte SW) ; Maximum-Entropie-Methode (Genormte SW) ; Informatik (frei) ; automatic speech recognition (frei) ; machine learning (frei) ; optical character recognition (frei) ; hidden Markov model (frei) ; transducer (frei) ; maximum entropy method (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Konventionelle Spracherkennungssysteme basieren auf Gaußschen HMMs. Diskriminative Techniken wie log-lineare Modellierung werden erst seit kurzem in der Spracherkennung untersucht. Diese Dissertation führt einen log-linearen Formalismus im Kontext der diskriminativen Trainings-Kriterien ein - mit Beispielen aus der kontinuierlichen Spracherkennung, dem Part-of-Speech-Tagging und der Handschrifterkennung. Der theoretische und experimentelle Vergleich von verschiedenen Trainings-Algorithmen bildet den Schwerpunkt dieser Arbeit. Äquivalenzrelationen für Gaußsche und log-lineare Modelle in der Spracherkennung werden hergeleitet. Es wird gezeigt, wie ein Margin-Term in konventionellen diskriminativen Trainings-Kriterien wie zum Beispiel Minimum Phone Error (MPE) eingebaut werden kann, wodurch wir den Nutzen des Margin-Konzepts für die Erkennung von Strings direkt messen können. Die Äquivalenz-Relationen und die margin-basierten Trainings-Kriterien führen zu einer Vereinheitlichung drei wichtiger Trainingsparadigmen (Gaußsche HMMs, log-linearen Modelle und Support-Vektor-Maschinen (SVMs)). Generalized Iterative Scaling (GIS) wird traditionellerweise eingsetzt, um log-lineare Modelle mit dem Maximum Mutual Information (MMI)-Kriterium zu optimieren. Diese Dissertation schlägt eine Erweiterung von GIS für log-lineare Modelle mit verborgenen Variablen und für andere Trainings-Kriterien (zum Beispiel MPE) vor. Zum Schluss wird konvexe Optimierung in der Spracherkennung untersucht. Experimentelle Ergebnisse werden für eine Vielfalt von Aufgaben gezeigt, einschließlich der European-Parliament-Plenary-Sessions-Aufgabe und Mandarin Broadcasts.

Conventional speech recognition systems are based on Gaussian hidden Markov models (HMMs).Discriminative techniques such as log-linear modeling have been investigated in speech recognition only recently. This thesis establishes a log-linear modeling framework in the context of discriminative training criteria, with examples from continuous speech recognition, part-of-speech tagging, and handwriting recognition. The focus will be on the theoretical and experimental comparison of different training algorithms. Equivalence relations for Gaussian and log-linear models in speech recognition are derived. It is shown how to incorporate a margin term into conventional discriminative training criteria like for example minimum phone error (MPE). This permits to evaluate directly the utility of the margin concept for string recognition. The equivalence relations and the margin-based training criteria lead to a unified view of three major training paradigms, namely Gaussian HMMs, log-linear models, and support vector machines (SVMs). Generalized iterative scaling (GIS) is traditionally used for the optimization of log-linear models with the maximum mutual information (MMI) criterion. This thesis suggests an extension of GIS to log-linear models including hidden variables, and to other training criteria (e.g. MPE). Finally, investigations on convex optimization in speech recognition are presented. Experimental results are provided for a variety of tasks, including the European Parliament plenary sessions task and Mandarin broadcasts.

Fulltext:
PDF