h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Bayes risk decoding and its application to system combination = Spracherkennung unter Bayesrisiko und die Anwendung auf Systemkombination



Verantwortlichkeitsangabevorgelegt von Björn Hoffmeister

ImpressumAachen : Publikationsserver der RWTH Aachen University 2011

UmfangXI, 175 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2011

Zsfassung in dt. und engl. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2011-07-18

Online
URN: urn:nbn:de:hbz:82-opus-38293
URL: https://publications.rwth-aachen.de/record/82675/files/3829.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Automatische Spracherkennung (Genormte SW) ; Bayes-Entscheidungstheorie (Genormte SW) ; Informatik (frei) ; Systemkombination (frei) ; automatic speech recognition (frei) ; bayes risk decoding (frei) ; system combination (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Die automatische Spracherkennung befasst sich mit der Aufgabe gesprochene Sprache in geschriebenen Text umzuwandeln. Der Fehler eines Spracherkennungsystems wird in der Anzahl der Wörter gemessen, in denen der gesprochene vom erkannten Text abweicht. Thema dieser Arbeit ist die Verwendung des Bayes Risk Frameworks mit dem Ziel den Fehler eines einzelnen Systems oder einer Kombination von mehreren Systemen zu minimieren. Bedingt durch die Komplexität der Methoden werden alle Experimente und Untersuchungen in dieser Arbeit auf Wortgraphen durchgeführt. Ein Wortgraph ist die kompakte Darstellung eines eingeschränkten Hypothesenraums, der von einem vorgeschalteten Erkennungslauf erzeugt wird. Im Falle der Systemkombination wird pro System ein Wortgraph bereitgestellt. Das Ziel ist es, aus den Wortgraphen eine finale Hypothese zu generieren, die einen geringeren Wortfehler aufweist als jedes der einzelnen System. In der kontinuierlichen Spracherkennung mit großem Wortschatz wird der Wortfehler als der Levenshteinabstand zwischen gesprochener und erkannter Wortfolge definiert. Falls die wahren Satzwahrscheinlichkeiten bekannt sind, liefert das Bayes Risk Framework die Wortfolge mit dem geringsten zu erwarteten Fehler. In der Praxis sind allerdings weder die wahren Wahrscheinlichkeiten bekannt, noch ist die Komplexität der Berechnung der Bayes Risk Hypothese auf einem Wortgraphen handhabbar, wenn der Levenshteinabstand als Kostenfunktion verwendet wird. Somit ergeben sich die beiden folgenden Aufgabenstellungen: Erstens, wie lassen sich aus den systemabhängigen Wortgraphen Wahrscheinlichkeiten schätzen. Und zweitens, wie lässt sich der Levenshteinabstand so abschätzen, daß die Komplexität der Berechnung der Bayes Risk Hypothese handhabbar wird. In dieser Arbeit wird, basierend auf der Trennung der Schätzung der Wahrscheinlichkeiten und der Kostenfunktion in der Bayes Risk Berechnung, ein allgemeines Framework für die wortgraphgestützte Systemkombination entwickelt. Das Framework deckt die in der Praxis gängigen Methoden ab, u.a. ROVER, CNC und DMC. Weiterhin wird gezeigt, daß sich die, in der Sprachererkennung gängigen, Abschätzungen des Levenshteinabstands in zwei Klassen einteilen lassen, für die sich die Bayes Risk Hypothese effizient berechnen lässt. Die bekannten Abschätzungen werden untersucht und verglichen. Neue Verfahren werden entwickelt, die die Nachteile der bestehenden Abschätzungen ausgleichen, insbesondere den häufig zu beobachtenden hohen Anteil an Auslöschungen. Eine Datenstruktur von besonderem Interesse ist das Confusion Network (CN). In früheren Arbeiten wurde gezeigt, daß sich die Bayes Risk Hypothese eines CNs auf triviale Weise berechnen lässt. In dieser Arbeit werden neue Verfahren zur Umwandlung eines Wortgraphen in ein CN vorgestellt und mit bestehenden Verfahren verglichen. Weiterhin bildet das CN die Grundlage für mehrere Ansätze zur verbesserten Schätzung der Wahrscheinlichkeiten und zur genaueren Abschätzung des Levenshteinabstands. Die untersuchten Ansätze beinhalten die klassifikatorbasierte Systemkombination und den Einsatz eines gefensterten Levenshteinabstands als Kostenfunktion in der Berechnung der Bayes Risk Hypothese. Ein weiteres Thema, das in dieser Arbeit untersucht wird, ist die log-lineare Modellkombination, für die modell- und wortabhängige Skalierungsfaktoren eingeführt werden. Experimente werden mit den chinesischen Spracherkennern durchgeführt, die an der RWTH Aachen im Laufe des GALE Projekts entwickelt wurden, sowie mit den Wortgraphen, die im Zuge der 2007 TCStar EPPS Evaluation bereitgestellt wurden. Die besten Methoden zur Systemkombination, die in dieser Arbeit untersucht werden, zeigen eine relative Verbesserung in der Wortfehlerrate um bis zu 10% für die hausinterne Wortgraphkombination und mehr als 20% für die Kombination von Wortgraphen mehrerer Projektpartner. Dabei bezieht sich die relative Verbesserung auf die Fehlerrate des besten Einzelsystems. Im Vergleich zu den bestehenden Methoden zur wortgraphbasierten Systemkombination erzielen die neuentwickelten Verfahren leichte Verbesserungen.

Speech recognition is the task of converting an acoustic signal, which contains speech, to written text. The error of a speech recognition system is measured in the number of words in which the recognized and the spoken text differ. This work investigates and develops decoding and system combination approaches within the Bayes risk decoding framework with the objective of reducing the number of word errors. The investigated approaches are computationally too expensive to be applied in the speech decoder. Instead, the result of a first recognition run is used which narrows the number of hypotheses and provides the result in a compact form, the word lattice. In the single system decoding task a single word lattice is given and in the lattice-based system combination task a word lattice is provided by each system. In both cases the goal is to minimize the number of word errors in the ultimate hypothesis. In large vocabulary continuous speech recognition (LVCSR) tasks the number of word errors is computed as the Levenshtein distance between recognized and spoken text. The Bayes risk decoding framework yields the hypothesis with the least expected number of errors w.r.t. a specified loss function and given the true sentence posterior probabilities. However, neither the true probabilities are known nor is the computation of the Bayes risk hypothesis with the Levenshtein distance as loss function computationally feasible for a word lattice. Consequently, in lattice-based Bayes risk decoding and system combination two problems have to be addressed: first, how to compute an estimate for the sentence posterior probabilities given one or several word lattices; second, how to approximate the Levenshtein distance such that the computation of the Bayes risk hypothesis becomes computationally feasible. Based on the separation of the posterior probability computation and the loss function in the Bayes risk decoding rule a framework will be developed, which covers the common approaches to lattice-based system combination, like ROVER, CNC, and DMC. Furthermore, it will be shown that the common approximations of the Levenshtein distance used in LVCSR tasks can be classified into two categories for which efficient Bayes risk decoder exist. The existing approximates will be investigated and compared. New loss functions will be developed which overcome drawbacks of the existing approximations to the Levenshtein distance, like the frequently observed deletion bias. A data structure of particular interest is the confusion network (CN). In previous work it was shown that a CN has a simple decoding rule in the Bayes risk framework. In this work new algorithms for deriving a CN from a word lattice will be developed and compared to existing methods. Furthermore, the CN will be the base for several investigations aiming at improving the posterior probability estimates and the approximation of the Levenshtein distance. The methods looked into include classifier-based system combination and the usage of a windowed Levenshtein distance as loss function for the Bayes risk decoder. A further topic of research is the log-linear model combination for which the enhancement with model- and word-dependent scaling factors will be investigated. The methods are tested on the Chinese speech recognition systems used by RWTH Aachen in the GALE project and on the lattices provided within the English track of the 2007 TCStar EPPS evaluation. The best performing system combination methods investigated in this work improve the error rates by up to 10% relative for intra-site combination experiments and by more than 20% relative for cross-site combinations compared to the best single system. The newly developed methods show a slight improvement over the existing approaches to lattice decoding and lattice-based system combination.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-143058
Datensatz-ID: 82675

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)