Titel: On Representation Learning in Speech Processing and Automatic Speech Recognition
Sprache: Englisch
Autor*in: Milde, Benjamin
Schlagwörter: Representation learning; Speech processing; Automatic Unit Discovery; German Speech Recognition
GND-Schlagwörter: Maschinelles LernenGND
Deep learningGND
Automatische SpracherkennungGND
Unüberwachtes LernenGND
Erscheinungsdatum: 2022
Tag der mündlichen Prüfung: 2022-10-27
Zusammenfassung: 
Speech processing is a difficult task for computers, owing to many factors of variance present in any speech signal. In Automatic Speech Recognition (ASR), a person's voice, the environment and how and where speech sounds are recorded can drastically alter the appearance of a speech signal without changing the content of what is being said. Meanwhile, humans deal seemingly effortlessly with these factors of variance in understanding spoken language.

A central question in automatic speech processing is how and what representations to use, to facilitate further processing and to apply machine learning methods to automate speech processing tasks. A focus in this thesis is on learning models and representations from speech data itself. Artificial neural networks have recently reemerged as an important ingredient of acoustic and language modelling and have produced promising results and error reductions over previous methods. They are now a widespread tool in learning good and robust representations for speech signals in ASR and are also typically used in language modelling. After an introduction to speech processing in Chapter 1, this thesis provides an overview of common (deep) neural network techniques and models in Chapter 2. An introduction to speech processing and ASR is given in Chapter 3.

In Chapter 4, a study on transfer learning is conducted on an isolated paralinguistic speech task, namely eating condition recognition. With the system presented in this chapter, we also participated in a paralinguistic speech challenge. The model was pre-trained on a language identification task and transfer learning was successfully used for the target task with little training data.

In Chapter 5 of this thesis, we propose Unspeech context embeddings. Unspeech models are trained on unannotated speech data using contrastive learning, with Siamese convolutional neural networks. The model is built on the idea that speech sounds that are close in time share the same contexts. The model can be trained on vast amounts of unannotated data, as evidenced by training it on up to 10,000 hours of speech data. We evaluate the model and its embeddings in automatic speech recognition tasks and several other downstream tasks, such as short command recognition, emotion recognition and speaker recognition.

In Chapter 6, we propose Sparsespeech, a neural model for discrete acoustic unit discovery in unannotated speech data. In the proposed model, we aim to represent speech as discretized units together with a context embedding. Unspeech embeddings can be used as context embedding or an alternative implicit context vector. The model is evaluated with the ABX error measure on English read speech data, using the largescale ASR benchmark Libri-light for ASR learning scenarios that are either unsupervised or with limited supervision.

Multitask learning for grapheme-to-phoneme (G2P) conversion is proposed in Chapter 7, where a neural G2P model based on the sequence-to-sequence architecture is trained on multiple languages (English and German). An error evaluation reveals that irregularly pronounced words, such as English loan words, are often wrongly predicted by the model. %However, model confidence can used as an indication to whether the
In Chapter 8, a recipe to train TDNN-HMM ASR models for German ASR on 1,700 hours of freely available audio data from different sources is presented. The models are evaluated on the Tuda-De test set, with the best model yielding strong WER results that beat previously published end-to-end systems. It is also evaluated on the Verbmobil test set, showing that good results can also be obtained for conversational speech.

Real world use is demonstrated by applying the model to automatic subtitle generation, where additional tasks such as subtitle segmentation and punctuation reconstruction need to be considered. Insights gained from Chapter 7 are used to extend a freely available lexicon to add English loan words as well as current German vocabulary to the lexicon. The words are added semi-manually, by predicting multiple possible pronunciations and by using an active learning approach with Text-To-Speech (TTS) feedback. In another demo application, the feasibility of online decoding in a speech application that transcribes meetings on-the-fly is demonstrated with the application being able to summarize meetings as well.

In Chapter 9, another speech application is presented that ambiently researches relevant information, in the form of proposing relevant documents to users who passively listen to spoken language. In contrast to other personal assistants, this system is not specifically triggered, as it unobtrusively listens to speech streams in the background and implicitly queries an index of documents.

In Chapter 10, the thesis concludes that representation learning is key to a wide range of speech processing tasks and that alternative machine learning paradigms, other than purely supervised ones promise to harvest untapped potential.

Die Verarbeitung der gesprochenen Sprache stellt Computer vor besondere Herausforderungen, da einzelne Sprachsignale eine hohe Varianz aufzeigen können. Bei der automatischen Spracherkennung (engl. Automatic Speech Recognition, ASR) können die Stimme einer Person, die Umgebung und die Art und Weise, wie und wo Sprache aufgezeichnet wird, das Erscheinungsbild eines Sprachsignals drastisch beeinflussen, ohne den Inhalt des Gesagten zu verändern. Gleichzeitig kommt der Mensch mit diesen Faktoren beim Verstehen gesprochener Sprache scheinbar mühelos zurecht.

Eine zentrale Frage bei der automatischen Sprachverarbeitung ist daher, wie und welche Repräsentationen verwendet werden sollen, um die weitere Verarbeitung zu erleichtern und um Methoden des maschinellen Lernens zur Automatisierung der Sprachverarbeitung einzusetzen. Ein Schwerpunkt dieser Arbeit ist das Lernen von Modellen und Repräsentationen aus den Sprachdaten selbst. Künstliche neuronale Netze sind inzwischen ein wichtiger Bestandteil der akustischen und sprachlichen Modellierung und haben vielversprechende Ergebnisse und Fehlerreduzierungen gegenüber früheren Methoden erbracht. Sie sind heute ein weit verbreitetes Werkzeug zum Erlernen guter und robuster Repräsentationen für Sprachsignale und werden auch typischerweise in der Sprachmodellierung eingesetzt. Nach einer Einführung in die Sprachverarbeitung in Kapitel 1 gibt diese Arbeit in Kapitel 2 einen Überblick über gängige (tiefe) neuronale Netzwerktechniken und -modelle. Eine Einführung in die Sprachverarbeitung und ASR wird in Kapitel 3 gegeben.

In Kapitel 4 wird eine Studie zum Transferlernen an einer paralinguistischen Sprachanwendung, der Erkennung von Schmatzgeräuschen beim Reden und gleichzeitigen Essen, durchgeführt. Mit dem vorgeschlagenen System wurde auch an einem paralinguistischen Wettbewerb teilgenommen. Das Modell wurde mit einer Spracherkennungsaufgabe vortrainiert und das Transferlernen wurde erfolgreich für die Zielaufgabe mit wenigen Trainingsdaten eingesetzt.

In Kapitel 5 dieser Arbeit schlagen wir Unspeech-Kontexteinbettungen vor. Unspeech-Modelle werden auf nichtannotierten Sprachdaten mit kontrastivem Lernen und siamesischen neuronalen Netzen trainiert. Das Modell basiert auf der Idee, dass zeitlich nahe beieinander liegende Sprachlaute denselben Kontext teilen. Das Modell kann auf riesigen Mengen nichtannotierter Daten trainiert werden, was durch das Training mit bis zu 10.000 Stunden Sprachdaten bewiesen wurde. Wir evaluieren das Modell und seine Einbettungen mit einem ASR-System und verschiedenen anderen nachgelagerten Aufgaben, wie z.B. der Erkennung kurzer Befehle, sowie der Erkennung von Emotionen in der gesprochenen Sprache und der Sprechererkennung.

In Kapitel 6 wird Sparsespeech vorgeschlagen, ein neuronales Modell zur Erkennung diskreter akustischer Einheiten in nichtannotierten Sprachdaten. Das vorgeschlagene Modell zielt darauf ab, Sprache als diskrete Einheiten zusammen mit einer Kontexteinbettung darzustellen. Nichtsprachliche Einbettungen können als Kontexteinbettung oder als alternativer impliziter Kontextvektor verwendet werden. Das Modell wird mit dem ABX-Fehlermaß für englische gelesene Sprachdaten evaluiert, wobei der große ASR-Benchmark Libri-light für ASR-Lernszenarien verwendet wird, die entweder unbeaufsichtigt oder mit begrenzter Überwachung durchgeführt werden.

Multitasking-Lernen für die Graphem-Phonem-Konvertierung (G2P) wird in Kapitel 7 vorgeschlagen, bei dem ein neuronales G2P-Modell, das auf der Sequenz-zu-Sequenz-Architektur basiert, auf mehreren Sprachen (Englisch und Deutsch) trainiert wird. Eine Fehlerauswertung zeigt, dass unregelmäßig ausgesprochene Wörter, wie z.B. Anglizismen, vom Modell oft falsch vorhergesagt werden. In Kapitel 8 wird ein Rezept zum Trainieren von TDNN-HMM ASR-Modellen für deutsche ASR auf 1.700 Stunden frei verfügbarer Audiodaten aus verschiedenen Quellen vorgestellt. Die Modelle werden auf dem Tuda-De Testset evaluiert, wobei das beste Modell sehr gute Ergebnisse bei der Wortfehlerrate liefert, die zuvor veröffentlichte End-to-End-Systeme übertreffen. Es wird auch mit dem Verbmobil-Testsatz evaluiert, was zeigt, dass auch bei Konversationssprache gute Ergebnisse erzielt werden können.

Die Anwendung des Modells auf die automatische Generierung von Untertiteln, bei der zusätzliche Aufgaben wie die Segmentierung von Untertiteln und die Rekonstruktion der Satzzeichen berücksichtigt werden müssen, verdeutlicht die praktische Anwendung. Die in Kapitel 7 gewonnenen Erkenntnisse werden genutzt, um ein frei verfügbares Lexikon um Anglizismen sowie um aktuellen deutschen Wortschatz zu erweitern. Die Wörter werden halbmanuell hinzugefügt, indem mehrere mögliche Aussprachen vorhergesagt werden und ein aktiver Lernansatz mit Sprachsynthese-Feedback verwendet wird. In einer weiteren Demoanwendung wird die Machbarkeit der Online-Dekodierung in einer Sprachanwendung demonstriert, die Meetings transkribiert, wobei die Anwendung auch in der Lage ist, Meetings zusammenzufassen.

In Kapitel 9 wird eine weitere Sprachanwendung vorgestellt, die in Konversationen in der Umgebung relevante Informationen recherchiert und relevante Dokumente dem Nutzer vorschlägt. Das System hört dem Sprachgeschehen passiv zu. Im Gegensatz zu anderen persönlichen Assistenten wird dieses System nicht gezielt ausgelöst, da es unauffällig im Hintergrund den Sprachströmen lauscht und implizit einen Dokumentenindex abfragt.

In Kapitel 10 kommt die Arbeit zu dem Schluss, dass Repräsentationslernen für eine Vielzahl von Sprachverarbeitungsaufgaben von zentraler Bedeutung ist und dass alternative maschinelle Lernparadigmen, die nicht rein überwacht sind, ungenutztes Potenzial versprechen.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/9915
URN: urn:nbn:de:gbv:18-ediss-104520
Dokumenttyp: Dissertation
Betreuer*in: Biemann, Chris
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Beschreibung Prüfsumme GrößeFormat  
Dissertation.pdfDissertation "On Representation Learning in Speech Processing and Automatic Speech Recognition" von Benjamin Milde7f550825e56c4f0e9c734d0ca3250d136.16 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Info

Seitenansichten

340
Letzte Woche
Letzten Monat
geprüft am 18.04.2024

Download(s)

178
Letzte Woche
Letzten Monat
geprüft am 18.04.2024
Werkzeuge

Google ScholarTM

Prüfe