Investigations on search methods for speech recognition using weighted finite state transducers

Rybach, David; Ney, Hermann

doi:33551

Investigations on search methods for speech recognition using weighted finite state transducers = Untersuchungen von Suchverfahren für die Spracherkennung unter Verwendung von gewichteten endlichen Transduktoren

Rybach, David (Author)

2014

Verantwortlichkeitsangabevorgelegt von David Rybach

ImpressumAachen 2014

UmfangXII, 184 S. : graph. Darst.

Aachen, Techn. Hochsch., Diss., 2014

Zsfassung in dt. und engl. Sprache

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2014-04-30

Online
URN: urn:nbn:de:hbz:82-opus-50526
URL: https://publications.rwth-aachen.de/record/444896/files/5052.pdf

Einrichtungen

Inhaltliche Beschreibung (Schlagwörter)
Automatische Spracherkennung (Genormte SW) ; Transduktor <Automatentheorie> (Genormte SW) ; Informatik (frei) ; speech recognition (frei) ; weighted finite-state transducer (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Als Suchproblem bezeichnet man in der statistischen Spracherkennung die Suche nach der wahrscheinlichsten Wortfolge für ein gegebenes Sprachsignal. Dafür wird eine Kombination aus mehreren Wissensquellen genutzt: Sprachmodell, Aussprachemodell und akustische Modelle von Sprachlauten. Der dabei entstehende Suchraum ist enorm groß und erfordert eine effiziente Suchstrategie, um die Ergebnisse in akzeptabler Zeit und mit praktikablem Speicherplatz zu berechnen. Sowohl die strukturierten statistischen Modelle als auch deren Kombination zu einem Suchnetzwerk lassen sich mit gewichteten, endlichen Transducern (weighted finite-state transducers) darstellen. Mit geeigneten Operationen auf weighted finite-state Transducern können die einzelnen Transducer kombiniert und hinsichtlich Größe und Struktur optimiert werden. Die Konstruktion des finalen Transducers kann während der Suche geschehen, so dass nur jene Teile des Suchnetzwerks erzeugt werden, die auch tatsächlich benötigt werden. Diese dynamische Suche hat, verglichen mit der Suche auf einem statischen, vollständig expandierten Netzwerk, einen geringeren Speicherverbrauch. Gegenstand dieser Doktorarbeit ist die Untersuchung von Suchverfahren für die Spracherkennung, die weighted finite-state Transducer nutzen. Insbesondere wird die Verwendung dynamischer Suchnetzwerke mit unmittelbarer Transducer-Komposition (on-the-fly transducer composition) betrachtet. Eingehend untersucht werden die Konstruktion der benötigten Transducer sowie verschiedene Modellierungsansätze. Neben anderen Aspekten wird eine neuartige Konstruktion des Transducers beschrieben, welcher die Kontextabhängigkeit der Lautmodelle definiert. Diese Konstruktion basiert auf einer gemeinsamen Optimierung der Modellkomplexität und der Größe des resultierenden Transducers. Ein effizienter Suchalgorithmus und dessen praktische Umsetzung wird detailliert beschrieben und experimentell untersucht. Die dynamische, auf Transducern basierende Suche wird mit einem weiteren dem Stand der Technik entsprechenden Suchverfahren mit dynamischem Netzwerk verglichen: der historienbedingten lexikalischen Baumsuche (history conditioned lexical tree search). Experimentelle Ergebnisse werden für mehrere leistungsstarke Spracherkennungssysteme mit großem Vokabular vorgestellt, unter anderem Systeme für Nachrichtensendungen und Spontansprache in englischer und arabischer Sprache. Außerdem enthält diese Arbeit Betrachtungen zu mehreren praktischen Aspekten von Spracherkennungssystemen. Vornehmlich wird ein neues Verfahren zur Segmentierung von Audiodaten vorgestellt. Weiterhin wird das im Rahmen dieser Arbeit erweiterte, frei verfügbare Spracherkennungs-Softwarepaket der RWTH Aachen University, RASR, ausführlich beschrieben.

The search problem in the statistical approach to speech recognition is to find the most likely word sequence for an observed speech signal using a combination of knowledge sources, i.e. the language model, the pronunciation model, and the acoustic models of phones. The resulting search space is enormous. Therefore, an efficient search strategy is required to compute the result with a feasible amount of time and memory. The structured statistical models as well as their combination, the search network, can be represented as weighted finite-state transducers. The combination of the individual transducers and their optimization for size and structure is achieved by means of weighted transducer algorithms. The construction of the transducer can be performed on-the-fly during the search, such that only parts of the search network are generated as needed. This dynamic network search has lower memory requirements compared to a search using the full static expansion of the search network. In this thesis, we investigate search methods for speech recognition using weighted finite-state transducers. The focus of this work is on dynamic search networks using on-the-fly transducer composition. We study the construction of the transducers involved and analyze different modeling approaches. Amongst other topics, we describe a novel construction of compact phone context-dependency transducers based on a joint optimization of model complexity and transducer size. We describe an efficient search algorithm and its implementation in detail and provide an experimental evaluation. The dynamic transducer-based search is compared in-depth to another state-of-the-art search strategy using dynamic network expansion, namely history conditioned lexical tree search. Experimental results are obtained using several high-performance large vocabulary continuous speech recognition systems, including systems for broadcast news and spontaneous speech in English and Arabic. This thesis includes also considerations on practical aspects of a speech recognition system. In particular, we describe a novel framework for audio segmentation and we give a detailed overview of RASR, the publicly available RWTH Aachen University speech recognition software package, which has been extended within the scope of this work.

Fulltext:
PDF