h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Normalization in the acoustic feature space for improved speech recognition



Verantwortlichkeitsangabevorgelegt von Sirko Molau

ImpressumAachen : Publikationsserver der RWTH Aachen University 2003

UmfangVIII, 138 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2003


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2003-02-14

Online
URN: urn:nbn:de:hbz:82-opus-6086
URL: https://publications.rwth-aachen.de/record/52706/files/Molau_Sirko.pdf

Einrichtungen

  1. Fakultät für Mathematik, Informatik und Naturwissenschaften (100000)

Inhaltliche Beschreibung (Schlagwörter)
Automatische Spracherkennung (Genormte SW) ; Robustheit (Genormte SW) ; Sprachqualität (Genormte SW) ; Sprachsignal (Genormte SW) ; Signalanalyse (Genormte SW) ; Korpus <Linguistik> (Genormte SW) ; Informatik (frei) ; Mustererkennung (frei) ; automatische Spracherkennung (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
In dieser Arbeit werden Normalisierungsverfahren im akustischen Merkmalsraum zur Erhöhung der Robustheit von automatischen Spracherkennungssystemen untersucht. Es gibt eine grundsätzliche Diskrepanz zwischen den Trainings- und Testdaten, die zu einer Verschlechterung der Erkennungsleistung führt. Adaption und Normalisierung, zwei Prinzipien zur Verringerung des Unterschieds, werden in der Arbeit vorgestellt und in den Rahmen der statistischen Spracherkennung eingefügt. Es wird ein Klassifikationsschema für Normalisierungsverfahren entwickelt. Gängige Normalisierungsverfahren werden vorgestellt und erörtert und zwei besonders erfolgversprechende Verfahren im Rahmen der Arbeit umgesetzt und genauer analysiert. Die Vokaltraktlängennormierung beruht auf der Verzerrung der Frequenzachse während der Signalanalyse mit dem Ziel, sprecherabhängige Variationen im Sprachsignal zu reduzieren. Das allgemeine Prinzip wird vorgestellt und das Standardverfahren so optimiert, daß konsistent hohe Verbesserungen der Erkennungsleistung in verschiedenen Umgebungen erreicht werden. Ein Verfahren zur schnellen Parameterschätzung liefert dieselben Verbesserungen ohne eine Zunahme an Rechenzeit, was den Einsatz der Normalisierung in Online-Erkennungssystemen ermöglicht. Schließlich wird ein neuer Ansatz zur integrierten Verzerrung der Frequenzachse vorgestellt, der mehrere Signalanalyseschritte zu einem vereint. Das vereinfacht die Signalanalyse und verbessert die Kontrolle über die spektrale Glättung. Der zweite Satz von Verfahren, die im Detail untersucht werden, sind die Histogrammnormalisierung und die Merkmalsraumrotation. Sie zielen darauf ab, die Diskrepanz zwischen Trainings- und Testdaten durch eine Angleichung ihrer Verteilungen zu verringern. Der Effekt der Normalisierung auf verschiedenen Ebenen der Signalanalyse sowie auf Trainings- und Testdaten wird untersucht. Die Berücksichtigung des Anteils an Sprechpausen relaxiert eine der Grundannahmen der Histogrammnormalisierung. Ein Verfahren zur Merkmalsraumrotation beseitigt unerwünschte Variationen im Sprachsignal, die in den einzelnen Dimensionen des Merkmalsraumes korreliert sind. Die Interaktion von Histogrammnormalisierung und Rotation wird untersucht. Beide Verfahren erhöhen deutlich die Erkennungsleistung in Szenarien mit verschiedenen Graden an Diskrepanz zwischen Trainings- und Testdaten. Schließlich wird demonstriert, daß die Anwendung mehrerer Normalisierungsverfahren im Fall von starker Diskrepanz zwischen Training und Test die Erkennungsleistung von Null auf ein hohes Niveau von 90% bringen kann. Erkennungsergebnisse werden für Korpora mit verschiedenen akustischen Bedingungen, Vokabulargrößen, Sprachen und Sprechstilen angegeben: North American Business News ist ein Testkorpus mit großem Vokabular, der aus gelesenen englischen Texten besteht. VerbMobil II ist ein deutscher Spontansprachkorpus mit großem Vokabular, EuTrans II ist ein italienischer spontansprachlicher Telefonkorpus und CarNavigation ein verrauschter deutscher Einzelwortkorpus, der zum Teil in fahrenden Autos aufgenommen wurde.

In this work, normalization techniques in the acoustic feature space are studied which improve the robustness of automatic speech recognition systems. It is shown that there is a fundamental mismatch between training and test data which causes degraded recognition performance. Adaptation and normalization, basic strategies to reduce the mismatch, are introduced and placed into the framework of statistical speech recognition. A classification scheme for different normalization techniques is introduced. Common normalization schemes proposed in the literature are motivated and discussed, and two promising techniques are implemented and studied in detail. Vocal tract length normalization relies on frequency axis warping during signal analysis to reduce inter-speaker variability. The baseline procedure for training and test data normalization is introduced and optimized so that consistently large improvements in recognition performance are achieved under a variety of acoustic conditions. A technique for fast parameter estimation is developed that gives the same improvements as the baseline technique without an increase in computation time. It is shown that vocal tract length normalization can be applied successfully in online applications. A novel approach for integrated frequency axis warping is developed that merges successive signal analysis steps into a single one. It simplifies signal analysis and gives a better control over the amount of spectral smoothing. The second set of techniques explored in detail are histogram normalization and feature space rotation. They aim at reducing the mismatch between training and test by matching the distributions of the training and test data. The effect of histogram normalization at different signal analysis stages, as well as training and test data normalization are investigated in detail. One of the basic assumptions of histogram normalization is relaxed by taking care of the variable silence fraction. Feature space rotation is introduced to account for undesired variations in the speech signal that are correlated in the feature space dimensions. The interaction of histogram normalization and feature space rotation is analyzed, and it is shown that both techniques significantly improve the recognition accuracy in scenarios with different degrees of mismatch. Finally, it is demonstrated how the application of several normalization schemes in presence of large mismatch between training and test data can make the difference from essentially zero recognition accuracy to a high level of 90%. Experimental results are reported for corpora with different acoustic conditions, vocabulary sizes, languages, and speaking styles: North American Business News is a large vocabulary task of English read speech, VerbMobil II is a German large vocabulary conversational speech task, EuTrans II is an Italian speech corpus of conversational speech over telephone, and CarNavigation a German isolated-word recognition task recorded partly in noisy car environments.

Fulltext:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT013729337

Interne Identnummern
RWTH-CONV-114908
Datensatz-ID: 52706

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > No department assigned
Publication server / Open Access
Public records
Publications database
100000

 Record created 2013-01-28, last modified 2023-01-05


Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)