h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Investigations on search methods for speech recognition using weighted finite state transducers = Untersuchungen von Suchverfahren für die Spracherkennung unter Verwendung von gewichteten endlichen Transduktoren



Verantwortlichkeitsangabevorgelegt von David Rybach

ImpressumAachen 2014

UmfangXII, 184 S. : graph. Darst.


Aachen, Techn. Hochsch., Diss., 2014

Zsfassung in dt. und engl. Sprache


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter


Tag der mündlichen Prüfung/Habilitation
2014-04-30

Online
URN: urn:nbn:de:hbz:82-opus-50526
URL: https://publications.rwth-aachen.de/record/444896/files/5052.pdf

Einrichtungen

  1. Fachgruppe Informatik (120000)
  2. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)

Inhaltliche Beschreibung (Schlagwörter)
Automatische Spracherkennung (Genormte SW) ; Transduktor <Automatentheorie> (Genormte SW) ; Informatik (frei) ; speech recognition (frei) ; weighted finite-state transducer (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Als Suchproblem bezeichnet man in der statistischen Spracherkennung die Suche nach der wahrscheinlichsten Wortfolge für ein gegebenes Sprachsignal. Dafür wird eine Kombination aus mehreren Wissensquellen genutzt: Sprachmodell, Aussprachemodell und akustische Modelle von Sprachlauten. Der dabei entstehende Suchraum ist enorm groß und erfordert eine effiziente Suchstrategie, um die Ergebnisse in akzeptabler Zeit und mit praktikablem Speicherplatz zu berechnen. Sowohl die strukturierten statistischen Modelle als auch deren Kombination zu einem Suchnetzwerk lassen sich mit gewichteten, endlichen Transducern (weighted finite-state transducers) darstellen. Mit geeigneten Operationen auf weighted finite-state Transducern können die einzelnen Transducer kombiniert und hinsichtlich Größe und Struktur optimiert werden. Die Konstruktion des finalen Transducers kann während der Suche geschehen, so dass nur jene Teile des Suchnetzwerks erzeugt werden, die auch tatsächlich benötigt werden. Diese dynamische Suche hat, verglichen mit der Suche auf einem statischen, vollständig expandierten Netzwerk, einen geringeren Speicherverbrauch. Gegenstand dieser Doktorarbeit ist die Untersuchung von Suchverfahren für die Spracherkennung, die weighted finite-state Transducer nutzen. Insbesondere wird die Verwendung dynamischer Suchnetzwerke mit unmittelbarer Transducer-Komposition (on-the-fly transducer composition) betrachtet. Eingehend untersucht werden die Konstruktion der benötigten Transducer sowie verschiedene Modellierungsansätze. Neben anderen Aspekten wird eine neuartige Konstruktion des Transducers beschrieben, welcher die Kontextabhängigkeit der Lautmodelle definiert. Diese Konstruktion basiert auf einer gemeinsamen Optimierung der Modellkomplexität und der Größe des resultierenden Transducers. Ein effizienter Suchalgorithmus und dessen praktische Umsetzung wird detailliert beschrieben und experimentell untersucht. Die dynamische, auf Transducern basierende Suche wird mit einem weiteren dem Stand der Technik entsprechenden Suchverfahren mit dynamischem Netzwerk verglichen: der historienbedingten lexikalischen Baumsuche (history conditioned lexical tree search). Experimentelle Ergebnisse werden für mehrere leistungsstarke Spracherkennungssysteme mit großem Vokabular vorgestellt, unter anderem Systeme für Nachrichtensendungen und Spontansprache in englischer und arabischer Sprache. Außerdem enthält diese Arbeit Betrachtungen zu mehreren praktischen Aspekten von Spracherkennungssystemen. Vornehmlich wird ein neues Verfahren zur Segmentierung von Audiodaten vorgestellt. Weiterhin wird das im Rahmen dieser Arbeit erweiterte, frei verfügbare Spracherkennungs-Softwarepaket der RWTH Aachen University, RASR, ausführlich beschrieben.

The search problem in the statistical approach to speech recognition is to find the most likely word sequence for an observed speech signal using a combination of knowledge sources, i.e. the language model, the pronunciation model, and the acoustic models of phones. The resulting search space is enormous. Therefore, an efficient search strategy is required to compute the result with a feasible amount of time and memory. The structured statistical models as well as their combination, the search network, can be represented as weighted finite-state transducers. The combination of the individual transducers and their optimization for size and structure is achieved by means of weighted transducer algorithms. The construction of the transducer can be performed on-the-fly during the search, such that only parts of the search network are generated as needed. This dynamic network search has lower memory requirements compared to a search using the full static expansion of the search network. In this thesis, we investigate search methods for speech recognition using weighted finite-state transducers. The focus of this work is on dynamic search networks using on-the-fly transducer composition. We study the construction of the transducers involved and analyze different modeling approaches. Amongst other topics, we describe a novel construction of compact phone context-dependency transducers based on a joint optimization of model complexity and transducer size. We describe an efficient search algorithm and its implementation in detail and provide an experimental evaluation. The dynamic transducer-based search is compared in-depth to another state-of-the-art search strategy using dynamic network expansion, namely history conditioned lexical tree search. Experimental results are obtained using several high-performance large vocabulary continuous speech recognition systems, including systems for broadcast news and spontaneous speech in English and Arabic. This thesis includes also considerations on practical aspects of a speech recognition system. In particular, we describe a novel framework for audio segmentation and we give a detailed overview of RASR, the publicly available RWTH Aachen University speech recognition software package, which has been extended within the scope of this work.

Fulltext:
Download fulltext PDF

Dokumenttyp
Dissertation / PhD Thesis

Format
online, print

Sprache
English

Interne Identnummern
RWTH-CONV-145212
Datensatz-ID: 444896

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2014-12-09, last modified 2022-04-22


Fulltext:
Download fulltext PDF
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)