h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Advancing neural language modeling in automatic speech recognition = Fortschritte bei der neuronalen Sprachmodellierung in der automatischen Spracherkennung



Verantwortlichkeitsangabevorgelegt von Kazuki Irie, Diplôme d'Ingénieur, M.S. Applied Mathematics

ImpressumAachen 2020

Umfang1 Online-Ressource (xi, 151 Seiten) : Illustrationen


Dissertation, RWTH Aachen University, 2020

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2020-05-05

Online
DOI: 10.18154/RWTH-2020-04984
URL: https://publications.rwth-aachen.de/record/789081/files/789081.pdf

Einrichtungen

  1. Lehrstuhl für Informatik 6 (Sprachverarbeitung und Mustererkennung) (122010)
  2. Fachgruppe Informatik (120000)

Inhaltliche Beschreibung (Schlagwörter)
artificial neural networks (frei) ; deep learning (frei) ; language modeling (frei) ; speech recognition (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Die statistische Sprachmodellierung ist eines der grundlegenden Probleme bei der maschinellen Verarbeitung natürlicher Sprache. In den letzten Jahren hat die Sprachmodellierung große Fortschritte gemacht, durchaktiven Arbeitsaufwand bei der Anwendung künstlicher neuronaler Netzwerke, insbesondere der rekurrenten Netzwerke. Die Anwendung neuronaler Sprachmodelle auf die Spracherkennung ist inzwischen gut etabliert und allgegenwärtig. Dennoch argumentieren wir, dass das volle Potenzial der auf neuronalen Netzwerken basierenden Sprachmodellierung noch nicht ausgeschöpft ist. In dieser Arbeit entwickeln wir die neuronale Sprachmodellierung in der automatischen Spracherkennung weiter. Dazu untersuchen wir eine Reihe neuer Perspektiven. Wir untersuchen die neu vorgeschlagenen Transformer-Modelle für die Anwendung in der Sprachmodellierung. Die für die maschinelle Übersetzung ursprüngliche vorgeschlagene Transformer-Modellarchitektur wird untersucht und an die spezifischen Anforderungen der Sprachmodellierung angepasst. Sehr tiefe Modelle mit etwa hundert Schichten werden entwickelt. Wir führen einen detaillierten Vergleich mit den Long-Short-Term-Memory basierten Sprachmodellen. Bei der Skalierung der Sprachmodellierung auf größere Datensätze erscheint die Vielfalt der Daten als Chance und Herausforderung. Der aktuellen besten neuronalen Sprachmodellierung fehlt ein Mechanismus zur Handhabung unterschiedlicher Daten aus verschiedenen Domänen, damit ein einziges Modell in verschiedenen Domänen gut funktioniert. In diesem Zusammenhang stellen wir eine domänenrobuste Sprachmodellierung mit neuronalen Netzwerken vor. Wir stellen zwei Lösungen vor. Als erste Lösung schlagen wir eine neue Art von adaptiver Mixture-of-Experts Modellen vor, die vollständig auf neuronalen Netzwerken basieren. Dieser Ansatz hat einen Nachteil der sperrigen Modellgröße. Im zweiten Ansatz untersuchen wir daher die Knowledge-Distillation aus Expertenmodellen mit mehreren Domänen. Methoden zur praktischen Anwendung der Knowledge-Distillation auf die Sprachmodellierung mit großem Vokabular werden vorgeschlagen und ausführlich untersucht. Schließlich untersuchen wir das Potenzial neuronaler Sprachmodelle zur Nutzung von langen satzübergreifenden Kontexten für verbesserte Spracherkennung. Die geeignete Trainingsmethode für ein solches Szenario ist in den existierenden Arbeiten noch nicht ausreichend erforscht. Wir führen einen systematischen Vergleich der Trainingsmethoden durch, wodurch wir Verbesserungen bei der satzübergreifenden Spracherkennung erzielen. Im gleichen Zusammenhang untersuchen wir die Robustheit verschiedener Sequenzlängen sowohl für rekurrente Long-Short-Term-Memory neuronale Netzwerke als auch für Transformer-Modelle. Eine solche Robustheit ist eine der grundlegenden Eigenschaften, die wir uns in neuronalen Netzwerken mit der Fähigkeit zur Handhabung von Kontexten variabler Länge wünschen. In der gesamten Arbeit gehen wir diese Themen mit neuen Perspektiven der neuronalen Sprachmodellierung an, wobei wir die traditionelle Weise der Sprachmodellierung in der automatischen Spracherkennung beibehalten.

Statistical language modeling is one of the fundamental problems in natural language processing. In the recent years, language modeling has seen great advances by active research and engineering efforts in applying artificial neural networks, especially those which are recurrent. The application of neural language models to speech recognition has now become well established and ubiquitous. Despite this impression of some degree of maturity, we claim that the full potential of the neural network based language modeling is yet to be explored. In this thesis, we further advance neural language modeling in automatic speech recognition, by investigating a number of new perspectives. From the architectural view point, we investigate the newly proposed Transformer neural net- works for language modeling application. The original model architecture proposed for machine translation is studied and modified to accommodate the specific task of language modeling. Particularly deep models with about one hundred layers are developed. We present an in-depth comparison with the state-of-the-art recurrent neural network language models based on the long short-term memory. While scaling up language modeling to larger scale datasets, the diversity of the data emerges as an opportunity and a challenge. The current state-of-the-art neural language modeling lacks a mechanism of handling diverse data from different domains for a single model to perform well across different domains. In this context, we introduce domain robust language modeling with neural networks, and propose two solutions. As a first solution, we propose a new type of adaptive mixture of experts model which is fully based on neural networks. In the second approach, we investigate knowledge distillation from multiple domain expert models, as a solution to the large model size problem seen in the first approach. Methods for practical applications of knowledge distillation to large vocabulary language modeling are proposed, and studied to a large extent. Finally, we investigate the potential of neural language models to leverage long-span cross- sentence contexts for cross-utterance speech recognition. The appropriate training method for such a scenario is under-explored in the existing works. We carry out systematic comparisons of the training methods, allowing us to achieve improvements in cross-utterance speech recognition. In the same context, we study the sequence length robustness for both recurrent neural networks based on the long short-term memory and Transformers, because such a robustness is one of the fundamental properties we wish to have, in neural networks with the ability to handle variable length contexts. Throughout the thesis, we tackle these problems through novel perspectives of neural language modeling, while keeping the traditional spirit of language modeling in speech recognition.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT020451479

Interne Identnummern
RWTH-2020-04984
Datensatz-ID: 789081

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Mathematics, Computer Science and Natural Sciences (Fac.1) > Department of Computer Science
Publication server / Open Access
Public records
Publications database
120000
122010

 Record created 2020-05-07, last modified 2023-04-11


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)