German Title: Bayesianische neuronale Netze für probabilistisches maschinelles Lernen
Preview |
PDF, English
- main document
Download (4MB) | Terms of use |
Abstract
Deep Learning-based models are becoming more and more relevant for an increasing number of applications. Bayesian neural networks can serve as a principled way to model the uncertainty in such approaches and to include prior knowledge. This work tackles how to improve the training of Bayesian neural nets (BNNs) and how to apply them in practice. We first develop a variational inference-based approach to learn them without requiring samples during training using the popular rectified linear unit activation function's piecewise linear structure. We then show how we can use a second approach based on a central limit theorem argument to get a good predictive uncertainty signal for an active learning task. We further build a reinforcement learning-based approach in such an active learning setup, learning a second BNN that requests labels to support the primary model optimally. As a third variant, we then introduce a new method for learning BNNs by optimizing the marginal likelihood via a model selection based approach, relying on the concept of type-II maximum likelihood, also known as empirical Bayes. Using PAC-Bayes theory to develop a regularization structure, we show how to combine it with a popular deterministic model for out-of-distribution detection, demonstrating improved results. Using this joint combination of empirical Bayes and PAC-Bayes, we finally study how to use it to learn dynamical systems specified via stochastic differential equations in a way that allows incorporating prior knowledge of the dynamics and model uncertainty.
Translation of abstract (German)
Deep Learning-basierte Modelle werden für eine zunehmende Anzahl von Anwendungen immer relevanter. Bayes'sche neuronale Netze können als prinzipielle Möglichkeit dienen, die Unsicherheit in solchen Ansätzen zu modellieren und Vorwissen einzubeziehen. Diese Arbeit befasst sich damit, wie das Training von Bayes'schen Neuronalen Netzen (BNNs) verbessert werden kann und wie sie in der Praxis eingesetzt werden können. Wir entwickeln zunächst einen auf Variationsinferenz basierenden Ansatz, um sie zu lernen, ohne dass während des Trainings Stichproben benötigt werden, indem wir die stückweise lineare Struktur der beliebten ReLU Aktivierungsfunktion verwenden. Dann zeigen wir, wie wir einen zweiten Ansatz verwenden können, der auf einem Argument des zentralen Grenzwertsatzes basiert, um ein gutes Vorhersageunsicherheitssignal für das Problem des Aktiven Lernens zu erhalten. Weiterhin konstruieren wir einen auf Reinforcement Learning basierenden Ansatz für dieses Problem, welches ein zweites BNN lernt, um das primäre Modell optimal zu unterstützen. Als dritte Variante führen wir dann eine neue Methode zum Lernen von BNNs ein, indem wir die marginale Wahrscheinlichkeit über einen auf Modellauswahl basierenden Ansatz optimieren, der sich auf das Konzept eines Maximum-Likelihood-Schätzers vom Typ 2 stützt, auch bekannt als empirical Bayes. Unter Verwendung der PAC-Bayes-Theorie zur Entwicklung einer Regularisierungsstruktur zeigen wir, wie diese mit einem populären deterministischen Modell zur Erkennung von Out-of-Distribution kombiniert werden kann, und demonstrieren verbesserte Ergebnisse. Unter Verwendung dieser gemeinsamen Kombination von empirical Bayes und PAC-Bayes untersuchen wir schließlich wie man damit dynamische Systeme, die durch stochastische Differentialgleichungen spezifiziert sind, auf eine Weise lernen kann, die es erlaubt, Vorwissen über die Dynamik und Modellunsicherheit einzubeziehen.
Document type: | Dissertation |
---|---|
Supervisor: | Hamprecht, Prof. Dr. Fred A. |
Place of Publication: | Heidelberg |
Date of thesis defense: | 27 July 2021 |
Date Deposited: | 16 Aug 2021 08:14 |
Date: | 2021 |
Faculties / Institutes: | The Faculty of Mathematics and Computer Science > Dean's Office of The Faculty of Mathematics and Computer Science Service facilities > Heidelberg Collaboratory for Image Processing (HCI) |
DDC-classification: | 004 Data processing Computer science 500 Natural sciences and mathematics |
Controlled Keywords: | Machinelles Lernen |
Uncontrolled Keywords: | machine learning, bayesian neural networks, active learning |