h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Neural network based feature extraction for speech and image recognition = Neurale Netze basierte Merkmalsgewinnung in der Sprach- und Bilderkennung



Verantwortlichkeitsangabevorgelegt von Christian Plahl

ImpressumAachen : Publikationsserver der RWTH Aachen University 2014

UmfangXIX, 195 S. : Ill., graph. Darst.


Aachen, Techn. Hochsch., Diss., 2014

Zsfassung in dt. und engl. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2014-01-23

Online
URN: urn:nbn:de:hbz:82-opus-51349
URL: https://publications.rwth-aachen.de/record/444882/files/5134.pdf

Einrichtungen

  1. Fachgruppe Informatik (120000)
  2. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)

Inhaltliche Beschreibung (Schlagwörter)
Neuronales Netz (Genormte SW) ; Merkmalsextraktion (Genormte SW) ; Automatische Spracherkennung (Genormte SW) ; Bildverarbeitung (Genormte SW) ; Informatik (frei) ; neuronale Netze (frei) ; bottle neck features (frei) ; feature combination (frei) ; feature extraction (frei) ; neural networks (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Diese Doktorarbeit untersucht Merkmale, die mit Hilfe von künstlichen neuronalen Netzen erzeugt werden. Diese probabilistischen Merkmale sind als wichtiger Bestandteil aktueller automatischer Spracherkennungssysteme unverzichtbar geworden. Ebenso erfolgreich werden sie auch in vielen anderen Bereichen der Mustererkennung eingesetzt, wie z.B. in der Bildererkennung oder der Handschriftenerkennung. Durch eine detaillierte Analyse dieser Merkmale und ihres Entstehungsprozesses wird die Merkmalsgewinnung einerseits optimiert, andererseits lassen sich die für die automatische Spracherkennung relevanten Bestandteile des Sprachsignals identifizieren. Der hybride und der tandem Ansatz werden in dieser Arbeit ausführlich untersucht. Beide Verfahren stellen dem Erkennungssystem die aus dem künstlichen neuronalen Netz gewonnene Information in unterschiedlicher Weise bereit. Die Verfahren werden hinsichtlich ihrer Erkennungsleistung und der benötigten Rechenleistung untersucht. Ihre wichtigsten Vor- und Nachteile werden gegenübergestellt und ihre Bedeutung für das Erkennungssystem diskutiert. Um die Erkennung mit den aus dem neuronalen Netz gewonnenen Merkmalen zu verbessern, wird sowohl die Bedeutung der verwendeten Struktur des künstlichen neuronalen Netzes, als auch der Einfluss der Eingangsdaten in das neuronale Netz untersucht. Die Änderung der Netzstruktur} und der Einfluss verschiedener Merkmale sind unabhängig von der Methode, wie die Merkmale in das Spracherkennungssystem integriert werden. Verschiedene Merkmale des Kurzzeit- und Langzeitspektrums stellen unterschiedliche Aspekte des Sprachsignals in den Vordergrund. Durch die Kombination verschiedener Merkmale profitiert das neuronale Netz von diesen unterschiedlichen Wissensquellen. Diese Arbeit zeigt, dass ein künstliches neuronales Netz die Informationen verschiedener Merkmale besser ausnutzen kann, als die Kombination der auf diesen Merkmalen trainierten Einzelsysteme. Die Systemkombination profitiert von den unterschiedlichen Fehlern der Einzelsysteme. Jedes Einzelsystem ist dabei nur auf einem Merkmalsset trainiert. Zusätzlich vereinfacht das neue Kombinationsverfahren die Entwicklung des finalen Spracherkennungssystems, da nicht mehrere Systeme mit unterschiedlichen Eingangsdaten trainiert werden müssen. Die so eingesparten Ressourcen können eingesetzt werden um z.B. komplexere künstliche neuronale Netze zu trainieren. Die Struktur eines künstlichen neuronalen Netzes besitzt einen großen Einfluss auf die Qualität der erzeugten Merkmale. Diese Arbeit untersucht die Auswirkungen hierarchischer Ansätze, der Flaschenhalsarchitektur (engl. bottle-neck) und die Verwendung von rekurrenten neuronalen Netzen auf die Erkennungsleistung. Im hierarchischen Ansatz werden mehrere neuronale Netze hintereinander geschaltet, so dass als Eingang der Ausgang eines vorherigen Netzes genommen wird. Rekurrente Netze führen ein Gedächtnis ein, welches die vorherigen Eingangssignale repräsentiert. Das Hauptaugenmerk bei der Verwendung von rekurrenten Netzen liegt in der Analyse der bi-direktionalen Netzstruktur und in der Verwendung eines Lang- und Kurzeit Gedächtnisses (engl. long-short-term-memory). Sprachenübergreifende Merkmale reduzieren den Entwicklungsaufwand eines Spracherkennungssystems. Das Aufsetzen und Trainieren neuer Systeme vereinfacht sich durch die Wiederverwendung bereits trainierter Netze. In dieser Arbeit wird die Generalisierbarkeit solcher auf einer anderen Sprache trainierten neuronalen Netze Merkmale (engl. cross-lingual features) für das Spracherkennungssystem untersucht. Insbesondere werden die Auswirkung der Netzstruktur und die Relevanz der Anzahl an Sprachdaten, die zum Trainieren des neuronalen Netzes verwendet werden, thematisiert. Die Fehlerfunktion eines künstlichen neuronalen Netzes ist nicht konvex und das Erreichen des globalen Optimums daher nicht garantiert. In den meisten Fällen steckt die Zielfunktion in einem lokalen Optimum fest. Das Vortrainieren der Gewichte mittels un- und überwachter Lernverfahren hilft, ein besseres lokales Optimum zu finden. In dieser Arbeit werden verschiedene un- und überwachte Lernstrategien getestet und analysiert. Zusätzlich zur Vorinitialisierung der Gewichte durch Restricted Boltzmann Machines wird ein neues unüberwachtes Verfahren eingeführt, die Sparse Encoder Symmetric Machines. Das neue Verfahren zeichnet sich sowohl durch ein klares Abbruchkriterium aus, als auch durch eine direkte Optimierung der Gewichte basierend auf der Zielfunktion. Bei den Restricted Boltzmann Machines muss die eigentliche Zielfunktion approximiert werden. Die Merkmalsgewinnungsverfahren durch neuronale Netze können nicht nur in der automatischen Spracherkennung erfolgreich angewendet werden, sondern auch in anderen Bereichen der Mustererkennung. Diese Arbeit zeigt, dass künstliche neuronale Netze in der automatischen Handschriftenerkennung und bei der automatischen Erkennung von Gebärden Verbesserungen bringen. Die Ergebnisse aus dem Bereich der Spracherkennung werden bestätigt. Das Training von Gausschen Mischverteilungssystemen auf den Merkmalen des neuronalen Netzes und den Basismerkmalen ist jedoch nicht Erfolg versprechend. Erkennungssysteme, die nur auf den neuronalen Netzen Merkmalen trainiert werden, erzielen deutlich besser Erkennungsfehlerraten.

This work investigates features derived from an artificial neural network. These artificial neural network based probabilistic features have become a major component of current state-of-the-art systems for automatic speech recognition and other areas, e.g. image recognition. A detailed study of the artificial neural network based features helps to improve the feature extraction and to understand which information of the speech signal is relevant for recognition. Two algorithms are investigated which are widely used to integrate the information derived from an artificial neural network: the tandem and the hybrid approach. This work studies the effect of each of the algorithms in terms of recognition performance w.r.t. word error rate and the computational requirements. In addition, a detailed comparison and a discussion of the main advantages of each integration approach are given. Furthermore, novel extensions are proposed improving the artificial neural network feature extraction and the final recognition performance of the systems trained. These extensions concern the input features and the topology of the network used to train the artificial neural network and are independent of the integration method. Different short-term and long-term features model other complementary aspects of the speech signal. By combining these different feature sets the development circle of the speech recognition system can be simplified. This allows increasing the model complexity of the artificial neural network or of the acoustic model. The topology of an artificial neural network has a huge impact on the quality of the features derived from the artificial neural network. This work investigates the hierarchical framework, the bottle-neck processing and recurrent neural networks, especially the long-short-term-memory structure and the training of bi-directional networks. Furthermore, this work examines cross-lingual artificial neural network features and their impact on the topology and the amount of audio data used to train such features. The training and testing language of the artificial neural network features differs and the system development circle is simplified when such cross-lingual artificial neural network based features are used. In addition, this work analyses different supervised and unsupervised weight pre-training techniques. The initialization of the weights of a deep neural network is critical since the optimization function is non-convex. A new unsupervised pre-training technique is developed which allows the optimization of the loss function directly and provides a clear stopping criterion compared to other pre-training techniques like Restricted Boltzmann Machines. Finally, this work analyzes the generality of the artificial neural network based feature extraction approach by transferring the concept to different image tasks, optical character recognition and automatic sign language recognition. While most results are confirmed, some surprising new results are obtained.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-145200
Datensatz-ID: 444882

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2014-12-09, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)