h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Acoustic feature combination for speech recognition = Akustische Merkmalskombination für Spracherkennung



Verantwortlichkeitsangabevorgelegt von András Zolnay

ImpressumAachen : Publikationsserver der RWTH Aachen University 2006

UmfangVIII, 135 S.


Aachen, Techn. Hochsch., Diss., 2006


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2006-08-14

Online
URN: urn:nbn:de:hbz:82-opus-16068
URL: https://publications.rwth-aachen.de/record/61493/files/Zolnay_Andras.pdf

Einrichtungen

  1. Fakultät für Mathematik, Informatik und Naturwissenschaften (100000)

Inhaltliche Beschreibung (Schlagwörter)
Informatik (frei) ; Automatische Spracherkennung (frei) ; Merkmalsextraktion (frei) ; Merkmal (frei) ; Kombination (frei) ; Articulatory Features (frei) ; Voicedness Feature (frei) ; Spectrum Derivative Feature (frei) ; Linear Discriminant Analysis (frei) ; Discriminative Model Combination (frei)

Thematische Einordnung (Klassifikation)
DDC: 004
ccs: Speech Rec * Natural La

Kurzfassung
In dieser Arbeit wird die Verwendung mehrerer akustischer Merkmale des Sprachsignals fuer die Erkennung kontinuierlich gesprochener Sprache untersucht. Die Arbeit hat zwei Zielsetzungen: Einerseits werden neue akustische Merkmale entworfen, andererseits werden Merkmalskombinationstechiken untersucht, um die neuen Merkmale in moderne Spracherkennungssysteme effektiv zu integrieren. Die am meisten verbreiteten akustischen Merkmale sind Mel Frequency Cepstrum Coefficients (MFCC), Perceptual Linear Prediction (PLP) und Variationen dieser Merkmale. Diese Verfahren beruhen hauptsaechlich auf Modellen des menschlichen Gehoersystems. Die vorliegende Arbeit enthaelt einen ausfuehrlichen ueberblick ueber die Implementierung dieser akustischen Merkmale. Neben Merkmale motiviert durch Modelle des Gehoersystems sind zahlreiche artikulatorische Merkmalsextraktionsverfahren untersucht worden, die auf Modelle der menschlichen Sprachproduktion beruhen. In dieser Arbeit werden neue artikulatorische Merkmale des Sprachsignals vorgestellt. Das Merkmal Stimmhaftigkeit ist ein sehr verbreitetes artikulatorisches Merkmal. Drei Extraktionsverfahren des Merkmals Stimmhaftigkeit werden in dieser Arbeit vorgestellt und systematisch verglichen. Neben dem Merkmal Stimmhaftigkeit wird das neue Merkmal differenziertes Spektrum vorgestellt. Dieses Merkmal fokussiert auf Unterschiede in den Amplitudenspektren von Verschlußkonsonanten und stimmhaften Konsonanten. Die artikulatorischen Merkmale werden in Kombination mit gaengigen akustischen Merkmalen getestet, die hauptsaechlich auf Modellen des menschlichen Gehoersystems beruhen. Zwei Kombinationsverfahren werden im Rahmen dieser Arbeit getestet: Linear Discriminant Analysis (LDA) und Discriminative Model Combination (DMC). Beide Verfahren sind schon in automatischen Spracherkennungssystemen erfolgreich eingesetzt worden. In dieser Arbeit wird eine vergleichende Untersuchung durchgefuehrt, die die Anwendung dieser Methoden in der akustischen Merkmalskombination in den Vordergrund stellt. Die Robustheit der LDA-basierten Methode wird bei steigender Anzahl von akustischen Merkmalskoeffizienten analysiert. Das DMC-Verfahren wird auf die Merkmalskombination angewendet, wobei das akustische Modell in einzelne skalierbare Informationsquellen zerlegt wird. Nach der Analyse der Methoden werden die zu Grunde liegenden Emissionsmodelle verglichen. Der Einfluss von unterschiedlichen Merkmalen auf die Fehlerrate wird anhand zahlreicher Experimente mit Korpora kleinen und großen Wortschatzes studiert. Erkennungsergebnisse demonstrieren, dass die Fehlerrate automatischer Spracherkennungssysteme mit der Kombination von gehoerbasierten und artikulatorischen Merkmalen signifikant verbessert werden kann. Die Kombination von dem vokaltraktlaengennormierten MFCC und artikulatorischen Merkmalen zeigt, daß zusaetzliche artikulatorische Merkmale sogar die Erkennungsleistung sprecherabhaengiger Systeme verbessern koennen. Die Wortfehlerrate wird auf dem deutschen Ziffernerkennungskorpus SieTill von 1.8% auf 1.5% gesenkt. Konsistente Verbesserungen in der Wortfehlerrate werden auch auf zwei Korpora mit großem Wortschatz erzielt. Die Wortfehlerrate wird auf dem deutschen Spontansprachkorpus VerbMobil II von 19.1% auf 18.2% und auf dem EPPS-Korpus (Aufnahmen aus Plenarsitzungen des Europaeischen Parlaments) von 14.1% auf 13.5% gesenkt.

In this thesis, the use of multiple acoustic features of the speech signal is considered for speech recognition. The goals of this thesis are twofold: on the one hand, new acoustic features are developed, on the other hand, feature combination methods are investigated in order to find an effective integration of the newly developed features into state-of-the-art speech recognition systems. The most commonly used feature extraction methods are the Mel Frequency Cepstrum Coefficients (MFCC), Perceptual Linear Prediction (PLP), and variations of these techniques. These methods are mainly based on the models of the human auditory system. A detailed review of the implementation of these features is presented in this thesis. There have also been attempts at using articulatory motivated acoustic features for speech recognition which are motivated by models of the human speech production system. This thesis focuses partially on the development of new articulatory motivated acoustic features. The voicing information is one of the most commonly used articulatory features. Three voicing extraction methods are presented in this work followed by a systematic comparison. Besides the analysis of the voicing feature, the novel spectrum derivative feature is introduced which aims to capture the differences between magnitude spectra produced by obstruent and sonant consonants. The articulatory motivated features are tested in combinations with state-of-the-art acoustic features based on auditory models mainly. The features are combined both directly using Linear Discriminant Analysis (LDA) as well as indirectly on model level using Discriminative Model Combination (DMC). Both methods have already been used successfully in automatic speech recognition systems. In this work, a comparative study is presented which describes and analyzes the application of these methods to feature combination. Robustness issues of the LDA based method are addressed which are induced by increasing the amount of acoustic features coefficients. An application of DMC to feature combination is introduced based on the splitting of the acoustic model into separate scalable knowledge sources. After the analysis of the individual methods, a comparison is carried out on the basis of the underlying acoustic emission models. Experimental results are presented for small- and large-vocabulary tasks. The results show that the accuracy of automatic speech recognition systems can be significantly improved by the combination of auditory and articulatory motivated features. The combination of the Vocal Tract Length Normalized MFCC and articulatory motivated features demonstrates that additional articulatory information can even improve the performance of speaker adapted systems. The word error rate is reduced from 1.8% to 1.5% on the SieTill, a German digit string recognition task. Consistent improvements in word error rate have been obtained on two large-vocabulary corpora. The word error rate is reduced from 19.1% to 18.2% on the VerbMobil II, a German large vocabulary conversational speech task, and from 14.1% to 13.5% on the European Parliament Plenary Sessions task.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Externe Identnummern
HBZ: HT014914362

Interne Identnummern
RWTH-CONV-123154
Datensatz-ID: 61493

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > No department assigned
Publication server / Open Access
Public records
Publications database
100000

 Record created 2013-01-28, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)