h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Modeling spontaneous speech variability for large vocabulary continuous speech recognition = Modellierung von Sprachvariabilität in Spontansprache für Spracherkennungssysteme mit großem Vokabular



Verantwortlichkeitsangabevorgelegt von Hauke Schramm

ImpressumAachen : Publikationsserver der RWTH Aachen University 2006

UmfangX,135 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2006


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2006-03-06

Online
URN: urn:nbn:de:hbz:82-opus-14489
URL: https://publications.rwth-aachen.de/record/60915/files/Schramm_Hauke.pdf

Einrichtungen

  1. Fakultät für Mathematik, Informatik und Naturwissenschaften (100000)

Inhaltliche Beschreibung (Schlagwörter)
Informatik (frei) ; Automatische Spracherkennung (frei) ; Sprechtempo (frei) ; Variabilität (frei) ; Spontansprache (frei) ; Sprachvariabilität (frei) ; Lexikon (frei) ; Aussprachevariation (frei) ; Diskriminatives Training (frei) ; spontaneous speech (frei) ; speech variability (frei) ; pronunciation lexicon (frei) ; alternative pronunciation (frei) ; discriminative training (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Diese Arbeit beschäftigt sich mit der Entwicklung und Auswertung neuer Verfahren in der automatischen Spracherkennung zur verbesserten Modellierung von Sprachvariabilitäten in Spontansprache. Dabei werden vor allem zwei Aspekte untersucht: Die generelle Behandlung von Aussprachevariabilität sowie die gleichzeitige, explizite Modellierung unterschiedlicher Variabilitäten im akustischen Modell und Aussprachemodell eines Spracherkennungssystems.Im ersten Teil der Arbeit wird das Problem einer optimalen Integration von alternativen lexikalischen Aussprachemodellen in die Suche des Spracherkenners behandelt. Das beinhaltet unter anderem die effiziente Kombination von probabilistischen Beiträgen alternativer Aussprachemodelle im Verlauf der Suche. Die hierzu normalerweise eingesetzte Maximum-Approximation wird mit einer neuen Methode verglichen, bei der stattdessen in der Suche zeitsynchron die Summe über die Beiträge alternativer Aussprachemodelle approximiert wird. Experimente auf Konversationssprache zeigen, dass diese neue Methode die Fehlerrate um 2% relativ verbessert und gleichzeitig den Suchraum um 7% reduziert.Ein weiteres wichtiges Thema für die effiziente Integration von Aussprachemodell-Varianten in die Suche ist die optimale Gewichtung dieser Alternativen. Die üblicherweise dabei verwendeten Unigram A-Priori Wahrscheinlichkeiten werden im allgemeinen durch die relativen Häufigkeiten der Aussprachealternativen auf den Trainingsdaten abgeschätzt. Diese Standard Maximum-Likelihood Lösung wird mit einer neuen diskriminativen Trainingsmethode verglichen, die eine Erweiterung der Diskriminativen Modellkombination [Beyerlein 01] ist. Es wird gezeigt, dass die entwickelte Prozedur zur iterativen Neuschätzung der Aussprache-Gewichte den Einfluß der Aussprachemodelle in der Diskriminantenfunktion bezüglich der folgenden Merkmale ändert: (1) Wortfehlerrate, (2) Häufigkeit der Aussprachealternative in der korrekten Hypothese und deren Rivalen und (3) akustisches Modell, Sprachmodell und Aussprachemodell. Eine Evaluation dieser Technik auf Konversationssprache zeigt eine Verbesserung von 6.5% relativ auf den Trainingsdaten und von 2% relativ auf unbekannten Testdaten. Der zweite Teil dieser Arbeit zielt auf die Entwicklung und Auswertung einer neuartigen Technik, welche eine gleichzeitige, spezifische Behandlung mehrerer Sprachvariabilitäten im akustischen Modell und Aussprachemodell ermöglichen soll. Diese Technik (1) klassifiziert Teile der Sprache (z.B. Worte) bezüglich gegebener Variabilitätsklassen (z.B. Sprechgeschwindigkeit), (2) erzeugt klassenspezifische akustische Modelle und Aussprachemodelle und (3) kombiniert diese Modelle auf geeignete Weise später in der Suche. Eine Theorie zur effizienten Integration klassenspezifischer akustischer Modelle und Aussprachemodelle in ein 1-Pass Suchverfahren wird präsentiert, in der gewichtete Beiträge von Aussprachealternativen aufsummiert werden. Die beschriebene Technik lässt sich ganz allgemein zur Kombination beliebiger unterschiedlicher akustischer Modelle und Aussprachemodelle auf Wortebene einsetzen. In dieser Arbeit wird sie jedoch speziell zur expliziten Modellierung dreier für Spontansprache besonders wichtiger Variabilitätenverwendet: Aussprachevariabilität, Sprechgeschwindigkeitsvariabilität, und Variabilität bezüglich „gefüllter Pausen” (z.B. „ähm”). In den durchgeführten Experimenten erreichte das beste System unter Verwendung von 6 klassenspezifischen Modellen eine Reduktion der Wortfehlerrate um 13% relativ auf hochgradig spontanen medizinischen Diktaten, während die Verbesserung auf Konversationssprache 9% relativ betrug.

In this work a number of novel techniques for improved treatment of spontaneous speech variabilities in large vocabulary automatic speech recognition are developed and evaluated on US English conversational speech and spontaneous medical dictations. Two main aspects of spontaneous speech modeling are addressed: The general handling of pronunciation variability and the individual and parallel treatment of multiple speech variabilities in the acoustic and pronunciation model of a one-pass speech recognizer.The problem of an optimal incorporation of multiple alternative pronunciations into the search framework is addressed in the first part of the thesis. This includes the question of how to efficiently combine the probabilistic contributions of alternative pronunciations in the course of a left to right search procedure. The well known maximum approximation, usually applied in this context, is compared to a novel time synchronous sum approximation technique which integrates alternative pronunciations in a weighted sum of acoustic probabilities. It is shown on a conversational speech task that this approach outperforms the maximum approximation by 2% relative and reduces the search costs by 7%.Another important issue with respect to the incorporation of alternative pronunciations into the search framework is the statistical weighting of the pronunciations. The usually applied pronunciation unigram prior probabilities are typically estimated by the relative frequencies of pronunciations in the training hypotheses. This standard maximum likelihood solution is compared to a novel discriminative training scheme which is an extension of the Discriminative Model Combination technique, proposed in [Beyerlein 01]. The developed iterative reestimation procedure is shown to adjust the influence of a specific pronunciation prior probability in the discriminant function in dependence of (1) the word error rate, (2) the frequency of occurrence of this pronunciation in the correct hypothesis and its rivals, and (3) the underlying acoustic, pronunciation and language model. An evaluation of this technique on a conversational speech task showed a 6.5% relative improvement on the training corpus and a 2% relative gain on an independent test set.The second major part of this thesis addresses the development and evaluation of a novel training and search framework which enables a specific, parallel treatment of multiple speech variabilities in the acoustic and pronunciation model. This technique (1) classifies portions of speech (e.g. words) with respect to given variability classes (e.g. rate of speech), (2) builds class specific acoustic and pronunciation models, and (3) properly combines these models later in the search procedure on a word level basis. A theoretical framework for an efficient integration of the class specific acoustic and pronunciation models into a one-pass search procedure is developed which incorporates contributions from class specific alternatives in a weighted sum of acoustic probabilities. This multi variability framework applies a very general model combination technique which may be applied to combine arbitrary acoustic and pronunciation models on word level. In this work, it is especially used for a parallel, explicit treatment of three important spontaneous speechvariabilities: pronunciation variability, rate of speech variability, and filled pause variability. The best multi variability system combines 6 class specific acoustic and pronunciation models on word level and achieves a word error rate reduction of 13% relative on a highly spontaneous medical dictation task and a gain of 9% relative on conversational speech.

Fulltext:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT014717945

Interne Identnummern
RWTH-CONV-122601
Datensatz-ID: 60915

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > No department assigned
Publication server / Open Access
Public records
Publications database
100000

 Record created 2013-01-28, last modified 2024-03-19


Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)