Neural network based modeling and architectures for automatic speech recognition and machine translation

Zeyer, Albert; Ney, Hermann; Watanabe, Shinji; Leibe, Bastian

doi:HT021704265

Neural network based modeling and architectures for automatic speech recognition and machine translation

Zeyer, Albert^RWTH*

2022 & 2023

Verantwortlichkeitsangabevorgelegt von Diplom Mathematiker, Diplom Informatiker Albert Zeyer

ImpressumAachen : RWTH Aachen University 2022

Umfang1 Online-Ressource : Illustrationen

Dissertation, RWTH Aachen University, 2022

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2023

Genehmigende Fakultät
Fak01

Hauptberichter/Gutachter
Ney, Hermann (Thesis advisor)^RWTH* ; Watanabe, Shinji (Thesis advisor) ; Leibe, Bastian (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2022-06-07

Online
DOI: 10.18154/RWTH-2023-00619
URL: https://publications.rwth-aachen.de/record/862906/files/862906.pdf

Einrichtungen

Projekte

SEQCLAS - A Sequence Classification Framework for Human Language Technology (694537) (694537)

Inhaltliche Beschreibung (Schlagwörter)
CTC (frei) ; attention models (frei) ; automatic speech recognition (frei) ; deep learning (frei) ; neural networks (frei) ; statistical machine translation (frei) ; transducer models (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Unsere Arbeit zielt darauf ab, das Feld und die Anwendung von neuronalen Netzwerken (NN) voranzubringen, Sequenz-zu-Sequenz-Modelle voranzutreiben durch Erweiterungen und Entwicklung neuer Modelle, und die Trainingsmethoden der Modelle zu verbessern. Wir führen die erste umfassende Studie von Long Short-Term Memory (LSTM) akustischen Modellen durch und verbessern sie gegenüber unserem vorwärtsgericheten (feed-forward) neuronalen Netzwerk (FFNN) um 16% relativ. Wir waren unter den Ersten, bidirektionale LSTMs (BLSTMs) für die Online-Erkennung eingesetzt haben. Wir haben erfolgreich konvolutionelle (convolutional) neuronale Netzwerk (CNN) Modelle trainiert, die mit unserem BLSTM-Modell konkurrenzfähig sind. Wir sind die ersten, die verschiedene Layer-normalisierte (LN) LSTM Varianten vergleichen, um direkte und umfassende Studien durchzuführen. Wir studieren die Auswirkungen auf Trainingsstabilität, Konvergenz und Varianz. Wir erhalten Verbesserungen um 10% relativ gegenüber der Standard BLSTM Baseline. Außerdem führen wir eine umfassende Studie zu Transformer-Modellen im Vergleich zum LSTM durch. Wir untersuchen Transformer-Sprachmodelle und erreichen Stand-der-Technik-Ergebnisse mit 6% relativen Verbesserungen gegenüber dem besten LSTM. Als Alternative zu den hybriden neuronalen Netzwerk (NN)- hidden Markov Modelle (HMM) untersuchen wir Sequenz-zu-Sequenz-Modelle wie z.B. Attention-basierte Encoder-Decoder-Modelle. Wir entwickeln moderne Attention-basierte Modelle für maschinelle Übersetzung und Spracherkennung, die mit Byte-Pair encodierten (BPE) Teilwörtern arbeiten. Monotonizität und online Erkennungliefern die Motivation für unsere einfache Variante der lokalen Attention. Wir erweitern diese Arbeit um einen prinzipiellen Ansatz mit expliziter latenten Variable, und führen Latent-Attention-Modelle ein,mit Hard-Attention als Spezialfall, die eine neue Klasse von segmentellen Modellen darstellen. Wir zeigen die Äquivalenz von segmentellen und Transducer-Modellen, und schlagen eine neue Klasse von verallgemeinerten und erweiterten Transducer-Modellen vor,die akkurater sind und besser generalisieren als unsere Attention-Modelle.Wir führen eine umfassende Studie über alle existierenden Varianten aus der Literatur als Spezialfälle unseres verallgemeinerten und erweiterten Modells durch und zeigen die Effektivität unserer Erweiterungen. Wir beobachten, dass die Trainingsstrategien die wichtigste Rolle für eine gute Leistung spielen. Wir untersuchen auf Trainingskriterien, Optimierungstechniken, Lernratensteuerung, Vortrainierung, Regularisierung und Daten Augmentierung. Wir schlagen neuartige Vortrainierungsmethodenfür LSTM und Ende-zu-Ende-Modelle vor, bei denen das neuronale Netzwerk in Tiefe und Breite vergrößert wird. Wir untersuchen verschiedene Arten der Trainingsvarianz aufgrund von Zufälligkeiten beim Trainieren verursacht durch variierende Zufallsseeds und nicht-deterministische Trainingsalgorithmen. Wir sind unter den ersten, die einen hohen Einfluss der Anzahl der Trainingsepochen beobachten und dokumentieren. Wir schlagen ein neues verallgemeinertes Trainingsverfahren für hybride NN-HMM vor, bei dem die volle Summe über alle Alignierungen durchgeführt wird, und identifizieren Connectionist Temporal Classification (CTC) als einen Spezialfall davon. Wir erarbeiten eine mathematische Analyse über das spitze Verhalten von CTC. Dies ist die erste Arbeit, welche das spitze Verhalten und Konvergenzeigenschaften von CTC auf einer mathematischen Ebene erklären und herleiten kann. Wir entwickeln große Anteile von RETURNN als effizientes und flexibles Software Framework einschließlich einer effizienten Suchimplementierung um alle Experimente durchzuführen. Dieses Framework und die meisten unserer Ergebnisse und Baselines werden innerhalb des Teams und darüber hinaus benutzt. Alle unsere Arbeiten sind publiziert und der gesamte Code und alle Setups sind online verfügbar.

Our work aims to advance the field and application of neural networks, to advance sequence-to-sequence architectures by extending and developing new approaches, and to advance training methods. We perform the first comprehensive study of long short-term memory (LSTM) acoustic models and improve over our feed-forward neural network (FFNN) baseline by 16% relative. We are among the first to apply bidirectional LSTMs (BLSTMs) for online recognition. We successfully train convolutional neural network (CNN) models (ResNet and layer-wise context expansion with attention (LACE)) which are competitive with our BLSTM model. We are the first to compare different layer-normalized (LN) LSTM variants, to perform direct and comprehensive studies, and to study the effect on training stability, convergence and variance. We get improvements of 10% relative over the standard LSTM baseline. We further perform a comprehensive study on Transformer models in comparison to LSTMs, and we study Transformer language models and reach state-of-the-art results with 6% relative improvements over the best LSTM. We aim to advance the status quo which is the hybrid neural network (NN)-hidden Markov model (HMM) by investigating alternative sequence-to-sequence architectures such as attention-based encoder-decoder models. We develop state-of-the-art attention-based models for machine translation and speech recognition, operating on byte-pair encoding (BPE) subword labels. With the motivation to introduce monotonicity and potential streaming, we propose a simple local windowed attention variant. We extend this work further through a principled approach of having an explicit latent variable, and introduce latent attention models with hard attention as a special case, which are a novel class of segmental models. We discover the equivalence of segmental and transducer models, and propose a novel class of generalized and extended transducer models, which perform and generalize better than our attention models. We perform a comprehensive study on all existing variants from the literature as special cases of our generalized and extended model and show the effectiveness of our extensions. We observe that training strategies play the most important role in good performance. We investigate training criteria, optimization techniques, learning rate scheduling, pretraining, regularization and data augmentation. We propose novel pretraining schemes for LSTM and end-to-end models, where we grow the depth and width of the neural network. We investigate different types of training variance due to randomness in the training caused by varying random seeds and non-deterministic training algorithms. We are among the first to observe and document the high impact of the number of training epochs. We propose a novel generalized training procedure for hybrid NN-HMMs where we calculate the full sum over all alignments, and we identify connectionist temporal classification (CTC) as a special case of this. We further provide a mathematical analysis of the peaky behavior of CTC, making this the first work to explain the peaky behavior and convergence properties on a mathematical level. We develop large parts of RETURNN as an efficient and flexible software framework including beam search to perform all the experiments. This framework and most of our results and baselines are widely used among the team and beyond. All of our work is published and all code and setups are available online.

OpenAccess:
PDF
(additional files)