h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Investigations on acoustic model speaker adaptation = Untersuchungen zur Sprecheradaptation des akustischen Modells



Verantwortlichkeitsangabevorgelegt von Jonas Lööf

ImpressumAachen : Publikationsserver der RWTH Aachen University 2016


Aachen, Techn. Hochsch., Diss., 2015

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2016


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2015-07-02

Online
URN: urn:nbn:de:hbz:82-rwth-2015-072126
URL: https://publications.rwth-aachen.de/record/564185/files/564185.pdf
URL: https://publications.rwth-aachen.de/record/564185/files/564185.pdf?subformat=pdfa

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
Informatik (frei) ; speech recognition (frei) ; speaker adaptation (frei) ; dimension reducing adaptation (frei) ; log-linear adaptation (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Obwohl Sprecheradaption lange ein wichtiges Thema in Spracherkennung war, bleiben durch die Breite des Aufgabenfelds viele Aspekten noch offen. Die häufigsten Adaptionsansätze basieren auf affinen Transformationen, entweder von akustischen Modellparametern, oder von Merkmalsvektoren. Diese Dissertation untersucht Erweiterungen und Modifikationen von solchen Adaptionsansätzen, durch Untersuchungen neuer Parametrisierungen. Außerdem wird transformationsbasierte Adaption von der neuen Klasse von log-linearen akustischen Modellen untersucht. Drei Hauptthemen werden untersucht. Erstens wird eine neue Methode zu dimensionsreduzierenden Merkmalstransformationen für Sprecheradaption eingeführt. Die Methode basiert auf einem Likelihood-Quotienten-Kriterium; es wird gezeigt, dass sie eng mit der Maximum-Likelihood-Methode verwandt ist. Eine effiziente Schätzungsmethode, basierend auf einem, dem Estimation-Maximization-Algorithmus ähnlichen Verfahren, wird hergeleitet. Weiter wird das Verfahren zu einem diskriminativen Verfahren erweitert. Außerdem wird ein Weg des Einbringens von Vorabinformation präsentiert, basierend auf einem zentrierten Regularisierungsverfahren; die Äquivalenz dieser Methode zu der Maximum-a-posteriore-Methode wird gezeigt. Die präsentierte dimensionsreduzierende Adaptionsmethode gibt niedrigere Fehlerraten als die häufig eingesetzte fMLLR-Adaptionsmethode, sowohl für sprecheradaptives Training, als auch im Erkennung allein; Verbesserungen werden auch in Kombination mit anderen Adaptionsmethoden erreicht. Das Schätzungskriterium wird auch für transformationsbasierte VTLN eingesetzt, was erlaubt, die korrekte Normalisierung von dem Kriterium zu berücksichtigen. Zweitens wird eine Methode zur diskriminativen log-linearen merkmalstransformationsbasierten Sprecheradaption introduziert. Die Äquivalenz von Merkmals- und Modeltransformationen für log-lineare akustische Modelle wird demonstriert. Sowohl Experimente mit überwachter als auch unüberwachter Adaption werden präsentiert. Für überwachte Adaption werden Verbesserungen gegenüber einem Maximum-Likelihood-basierten Verfahren, in Form der mit fMLLR adaptiertem äquivalentem generativem Modell, erzielt. "Frame"-basierte und sequenzbasierte Optimierungskriterien werden untersucht, wie auch die Nutzung von unterschiedlichen Regularisierungsmethoden. Drittens wird "Offset"-basierte Modelladaption und deren Benutzung für sprecheradaptives Training studiert. Es wird gezeigt, dass eine unkomplizierte Implementierung möglich ist, da die Transformation stückweise konstant ist. Es wird gezeigt, das "Offset"-basierte SAT wesentliche Verbesserungen gegenüber einem System ohne sprecheradaptives Training liefert.

Though speaker adaptation has long been an importing topic in automatic speech recognition, the breadth of the topic means that there are still many important aspects left to be investigated. The most common approaches to adaptation is based on affine transformations of the acoustic model parameters or of the input features. This thesis explores extensions and modifications to such approaches, by investigating new parametrizations for adaptation. Furthermore, transform based adaptation for the new class of log-linear acoustic models is investigated.Three main topics are covered. First, a novel method for dimension reducing feature transformations for speaker adaptation is presented. The method is based on a likelihood ratio criterion, but is shown to be closely related to the maximum likelihood criterion. An efficient estimation method, based on an expectation-maximization-like update method is derived. It is shown how the method can be extended to use a discriminative criterion for optimization. A way to include prior information using a centered regularization method is introduced, and is shown to be equivalent to maximum a posteriori estimation with a manually selected prior. The presented dimension reducing adaptation method is shown to outperform standard fMLLR adaptation both for recognition side only adaptation, and for speaker adaptive training, also in combination with other adaptation methods. Furthermore the criterion and accumulators of the method is applied to warping factor estimation in matrix VTLN with a non-square transformation matrix, allowing the correct normalization of the criterion to be taken into account.Secondly, an approach to discriminative log-linear affine feature transform speaker adaptation is introduced. The equivalence of feature and model space adaptation for log-linear models is demonstrated. Experiments using both supervised and unsupervised adaptation are presented. For the case of supervised adaptation the method result in improvements over a maximum likelihood baseline, in the form of feature space maximum likelihood linear regression adaptation of the equivalent generative model. Frame based and sequence based optimization criteria are investigated, as well as the impact of different regularization methods.Finally model space acoustic adaptation using offsets, and its use for speaker adaptive training, was studied. It is shown that a straightforward implementation of offset based speaker adaptive training is possible, due to the piecewise constant nature of the transformation. It is shown that offset based SAT leads to a substantial improvement in word error rate over a system not using speaker adaptive training.

OpenAccess:
Download fulltext PDF Download fulltext PDF (PDFA)
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT018828911

Interne Identnummern
RWTH-2015-07212
Datensatz-ID: 564185

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2015-12-04, last modified 2023-11-20