Word posterior probabilities for large vocabulary continuous speech recognition

Wessel, Frank; Ney, Hermann

doi:HT013431003

Word posterior probabilities for large vocabulary continuous speech recognition

Wessel, Frank (Author)

2002

Verantwortlichkeitsangabevorgelegt von Frank Wessel

ImpressumAachen : Publikationsserver der RWTH Aachen University 2002

UmfangXII, 168 S. : Ill., graph. Darst.

Aachen, Techn. Hochsch., Diss., 2002

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2002-06-25

Online
URN: urn:nbn:de:hbz:82-opus-3824
URL: https://publications.rwth-aachen.de/record/62029/files/Wessel_Frank.pdf

Einrichtungen

RWTH Aachen (hsbk000000)

Inhaltliche Beschreibung (Schlagwörter)
Informatik (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In dieser Arbeit wird die Verwendung von Wort-Posterior-Wahrscheinlichkeiten für die Erkennung kontinuierlich gesprochener Sprache mit großem Wortschatz in einem vereinheitlichten, statistischen Rahmen untersucht. Die Wort-Posterior-Wahrscheinlichkeiten werden direkt aus den Satz-Posterior-Wahrscheinlichkeiten hergeleitet, die die Basis für die Bayes'sche Entscheidungsregel bilden. Unterschiedliche Ansätze zur Berechnung dieser Wahrscheinlichkeiten auf Basis von N-best Listen und Wortgraphen werden theoretisch und experimentell diskutiert und miteinander verglichen. Die Wort-Posterior-Wahrscheinlichkeiten werden als Konfidenzmaß eingesetzt. Es wird gezeigt, dass die Wort-Posterior-Wahrscheinlichkeiten im Vergleich mit anderen in dieser Arbeit untersuchten Konfidenzmassen am besten abschneiden. Die Qualität der Konfidenzmasse wird anhand zweier unterschiedlicher Bewertungskriterien und fünf verschiedener Testkorpora bewertet. Die relative Verringerung der Konfidenzfehlerrate mit den Wort-Posterior-Wahrscheinlichkeiten liegt zwischen 18.6% und 35.4%. Um die Qualität des vorgeschlagenen Konfidenzmasses zu veranschaulichen, werden die Wort-Posterior-Wahrscheinlichkeiten im Rahmen der Maximum-Likelihood-Linear-Regression eingesetzt, um die Adaption der Modellparameter auf diejenigen akustischen Segmente einzuschränken, deren Konfidenz verhältnismäßig groß ist und die vermutlich korrekt erkannt worden sind. Mit diesem Verfahren wird die Wortfehlerrate um 4.8% relativ auf einem spontansprachlichen deutschen Testkorpus gesenkt. Völlig analog werden die Wort-Posterior-Wahrscheinlichkeiten verwendet, um ein Spracherkennungssystem für amerikanische Nachrichtensendungen mit automatisch erzeugten Transkriptionen des Trainingskorpus zu trainieren. Um ein einfaches Spracherkennungssystem trainieren zu können, dass für die Erkennung des großen untranskribierten Trainingskorpus verwendet werden kann, wird eine geringe Menge akustischer Daten manuell transkribiert. Diese Datensammlung wird dann für das Training eines sehr einfachen Erkenners verwendet, mit dem der Trainingskorpus erkannt werden kann. Die Erkennung des Trainingskorpus und das anschließende Training mit den erkannten Transkriptionen werden iterativ durchgeführt. Die Wortfehlerraten auf zwei verschiedenen Testkorpora steigen um nur 14.6% bzw. 16.6% im Vergleich zu einem Spracherkennungssystem, das mit 72 Stunden manuell transkribierter akustischer Daten trainiert worden ist. Abschließend werden zwei neue Verfahren vorgestellt, die die Wort-Posterior-Wahrscheinlichkeiten einsetzen, um Wortfolgenhypothesen zu bewerten und die Anzahl von Wortfehlern zu reduzieren. Im ersten dieser Ansätze, dessen Zielsetzung die Minimierung der erwarteten Zahl von Satzfehlern ist, werden die Wort-Posterior-Wahrscheinlichkeiten eingesetzt, um die Wahrscheinlichkeiten von akustischem Modell und Sprachmodell während des Wortgraph-Rescorings zu ersetzen. Mit diesem Verfahren werden die Wortfehlerraten um 1.5% bis 5.1% relativ gesenkt. In einem zweiten Verfahren wird die Wortfehlerrate explizit minimiert. Hierzu wird eine neue Fehlerart eingeführt, die auf der Beobachtung basiert, dass die Identität von Wörtern nicht nur auf Basis eines Levenshtein-Alignments, sondern auch auf Basis von Zeitpunkten verglichen werden kann. Mit dieser Fehlerart wird eine neue Entscheidungsregel hergeleitet, die mit Wort-Posterior-Wahrscheinlichkeiten effizient ausgewertet werden kann. Die Wortfehlerraten auf den verschiedenen Testkorpora werden mit diesem Verfahren konsistent um 2.3% bis 5.1% relativ gesenkt.

In this thesis, the use of word posterior probabilities for large vocabulary continuous speech recognition is investigated in a unified, statistical framework. The word posterior probabilities are directly derived from the sentence posterior probabilities which are an essential part of Bayes' Decision Rule. Different approaches to the computation of these probabilities using N-best lists and word graphs are discussed, both theoretically and experimentally. The word posterior probabilities are used as confidence measures for various applications. It is shown that these probabilities are the best confidence measure among those studied in this work. The performance of the confidence measures is evaluated in a unified framework using two evaluation metrics and five highly different speech corpora. The relative reduction of the confidence error rates with the word posterior probabilities ranges between 18.6% and 35.4%. In order to show the usefulness of the suggested confidence measure, the word posterior probabilities are applied to restrict maximum-likelihood-linear-regression adaptation to those acoustic segments with a high confidence. In doing so, incorrectly recognised parts of the transcription can be excluded from the adaptation algorithm. Using this method, the word error rate is reduced by 4.8% relative on a German spontaneous-speech test set. In a very similar manner, the word posterior probabilities are used to train an American Broadcast News recogniser with automatically generated, i.e., recognised transcriptions. Only those parts of the acoustic training corpus are used where the confidence of the transcription is sufficiently high. In order to bootstrap an initial low-cost speech recognition system which can be used to recognise large quantities of untranscribed speech data for training purposes, a small amount of speech is transcribed manually. This small speech database with the manually generated transcriptions is then used to train the low-cost speech recogniser, which can be used to recognise the training corpus. Finally, the process of recognising the training corpus and of estimating the model parameters with the recognised transcriptions is applied iteratively. The word error rates on two American Broadcast News test sets rise by only 14.6% and by 16.6%, respectively, in comparison with a fully tuned speech recognition system trained on 72 hours of manually transcribed data. Finally, two new sentence hypothesis scoring approaches are presented. Both of these approaches are based on word posterior probabilities. In the first approach which still aims at minimising the expected number of sentence errors, the word posterior probabilities are used to replace the acoustic and language model probabilities during the scoring algorithm. Using this method, the word error rates are reduced by between 1.5% and 5.1% relative on the five speech corpora used in this thesis. In the second approach, the expected number of word errors is minimised explicitly instead of the expected number of sentence errors. To this end, a cost function is used which is based on the observation that the identity of words cannot only be compared on the basis of a Levenshtein-Alignment, but also on the basis of points in time. With this new cost function, an efficient decision rule is derived which can be evaluated very elegantly and which makes use of the word posterior probabilities. The word error rates on the different testing corpora are reduced consistently with this new decision rule by 2.3% to 5.1% relative.

Fulltext:
PDF