Untersuchungen von evolutionären Algorithmen zum Training neuronaler Netze in der Sprachverarbeitung

  • Im Rahmen der vorliegenden Diplomarbeit wurde die Leistungsfähigkeit von evolutionären Algorithmen zum Training von RNN untersucht und mit gradientenbasierten Trainingsalgorithmen verglichen. Die Zielsetzung war dabei im besonderen die Prüfung der Verwendbarkeit in der Sprachverarbeitung, speziell der Spracherkennung. Zunächst wurde anhand eines Prädiktionsproblems die prinzipielle Leistungsfähigkeit von EA untersucht, indem ein MLP mit unterschiedlichen evolutionären Algorithmen trainiert wurde. Verschiedene Varianten von GA und ES sind an diesem Beispiel getestet und miteinander verglichen worden. Im Rahmen der Untersuchungen an GA stellte sich heraus, daß eine Mindestgenauigkeit der Quantisierung zur Lösung erforderlich ist. Es zeigt sich, daß die Genauigkeit der Approximation mit abnehmendem Quantisierungsfehler besser wird. Damit ist eine Behandlung dieses Problems mit grob quantisierten Gewichten nachteilig. Demgegenüber profitiert ES sowohl in der Approximationsgenauigkeit, als auch in der Konvergenzgeschwindigkeit von der direkten Darstellung der Objektvariablen als reelle Zahlen. Weiterhin zeigte sich bei ES, daß die Genauigkeit einer Lösung auch von der Populationsgröße abhängig ist, da mit wachsender Populationsgröße der Parameterraum besser abgetastet werden kann. Im Vergleich mit ES benötigten GA längere Konvergenzzeiten und bedingten zudem aufgrund der Codierung und Decodierung einen höheren Rechenaufwand als ES, so daß die Untersuchungen an RNN nur mit ES durchgeführt wurden. Zunächst wurde mit dem Latching-Problem eine, in der Komplexität eng begrenzte, Klassifikationsaufgabe mit Zeitabhängigkeiten untersucht. Die zur Verfügung gestellte Information war bei diesem Beispiel sehr gering, da der Fehler nur am Ende einer Mustersequenz berechnet wurde. Es stellte sich heraus, daß selbst bei dieser sehr einfachen Aufgabenstellung die gradientenbasierten Verfahren nach dem Überschreiten einer maximalen Mustersequenzlänge T keine Lösung finden konnten. Im Gegensatz dazu war ES in der Lage, das Problem für alle gemessenen Variationen des Parameters T zu lösen. Erst wenn während des Trainings dem Gradientenverfahren zusätzliche Informationen durch Fehlereinspeisung zur Verfügung gestellt wurde, hatte der BPTT-Algorithmus die selbe Leistungsfähigkeit. Als weiteres Experiment mit Zeitabhängigkeiten wurde das Automaton-Problem un- tersucht, welches mittels eines RNN gelöst werden sollte. Bei diesem Problem wurde besonderer Wert auf die Untersuchung des Konvergenzverhaltens bei Änderungen der Parameter von ES gelegt. Die Untersuchungen ergaben, daß die einzelnen Parameter in komplexer Weise miteinander interagieren und nur eine gute Abstimmung aller Parameter aufeinander eine befriedigende Leistung in Bezug auf Konvergenzgeschwindigkeit und Klassifikationsergebnis erbringt. Wie bei dem Latching-Problem wurde der Fehler nur am Ende einer Mustersequenz berechnet. Dies bewirkt, daß der BPTT-Algorithmus bereits bei Sequenzlängen von T = 27 nicht mehr in der Lage ist, die Zeitabhängigkeiten in dem Gradienten zu repräsentieren. Mit ES dagegen konnten RNN trainiert werden, die in der Lage sind, Sequenzlängen bis zu T = 41 richtig zu klassifizieren. Die Untersuchungen bestätigen, daß der beschränkende Faktor in erster Linie der Trainingsalgorithmus und nicht das Netzwerksparadigma ist. Die Simulationsexperimente mit zeitnormierten Sprachdaten zeigen, daß mit ES prinzipiell höhere Erkennungsleistungen als mit dem gradientenbasierten Algorithmus des BPTT erzielt werden können. Jedoch nimmt schon bei der Klassifikation der Zahlwörter Zwei und Drei die Klassifikationsleistung mit zunehmender Sequenzlänge ab. Es erfordert eine drastische Vergrößerung der Populationsgröße, um zumindest gleich gute Ergebnisse zu erzielen. Zusätzliche Tests am Automaton-Problem stützen diese Aussage. Jedoch steigt der Rechenaufwand durch Vergrößerung der Populationsgröße so stark an, daß bei nicht zeitnormierten Sprachdaten ES mit adäquater Populationsgröße nicht mehr simulierbar waren. In den Untersuchungen an dem Vokabular mit sechs Wörtern wurde der Fehler für jeden anliegenden Merkmalsvektor berechnet und im Gradienten bzw. zur Bewertung bei ES im Training verwendet. In diesen Messungen erbringen beide Algorithmen nahezu identische Klassifikationsergebnisse. Insgesamt verhindert der drastisch ansteigende Rechenaufwand bei den Sprachdaten die Verarbeitung von größeren Vokabularien und langen Wörtern durch ES. Aus der Beschränkung der Populationsgröße durch die vorhandene Rechnerkapazität resultierte eine nichtoptimale Anpassung von Selektionsdruck, Mutationsrate und Populationsverteilung im Suchraum. Insbesondere erweist sich die globale Anpassung der Strategieparameter bei den vergrößerten Populationen als problematisch. Weitere Untersuchungen an ES mit Strategien zur Selbstadaption dieser Parameter bieten sich daher für zukünftige Forschung an.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Markus Wolkenhauer
URN:urn:nbn:de:hebis:30-23510
Document Type:diplomthesis
Language:German
Date of Publication (online):2005/12/21
Year of first Publication:1997
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Release Date:2005/12/21
HeBIS-PPN:13487143X
Institutes:Physik / Physik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
Licence (German):License LogoDeutsches Urheberrecht