Large-scale parallelized learning of nonlinear sparse coding models

  • The human brain is an unparalleled system: Through millions of years of evolution and during a lifespan of learning, our brains have developed remarkable abilities for dealing with incoming sensory data, extracting structure and useful information, and finally drawing the conclusions that result in the actions we take. Understanding the principles behind this machinery and building artificial systems that mimic at least some of these capabilities is a long standing goal in both the scientific and the engineering communities. While this goal still seems unreachable, we have seen tremendous progress when it comes to training data-driven algorithms on vast amounts of training data, e.g. to learn an optimal data model and its parameters in order to accomplish some task. Such algorithms are now omnipresent: they are part of recommender systems, they perform speech recognition and generally build the foundation for many semi-autonomous systems. They start to be integral part of many technical systems modern technical societies rely on for their everyday functioning. Many of these algorithms were originally inspired by biological systems or act as models for sensory data processing in mammalian brains. The response properties of a certain population of neurons in the first stages of the mammalian visual pathway, for example, can be modeled by algorithms such as Sparse Coding (SC), Independent Component Analysis (ICA) or Factor Analysis (FA). These well established learning algorithms typically assume linear interactions between the variables of the model. Most often these relationships are expressed in the form of a matrix-vector products between a matrix with learned dictionary-elements (basis vectors as column vectors) and the latent variables of these models. While on the one hand this linear interaction can sometimes be justified by the physical process for which the machine learning model is proposed, it is on the other hand often chosen just because of its mathematical and practical convenience. From an optimal coding point of view though, one would generally expect that the ideal model closely reflect the core interactions of the system it is modeling. In vision for example, one of the dominant processes giving rise to our sensory percepts are occlusions. Occluding objects are omnipresent in visual scenes and it would not be surprising if the mammalian visual system would be optimized to process occluding structures in the visual data stream. Yet, the established mathematical models of the first stages of the visual processing path (like, e.g., SC, ICA or FA) all assume linear interactions between the active image components. In this thesis we will discuss new models that aim to approximate the effects of occluding components by assuming nonlinear interactions between their activated dictionary elements. We will present learning algorithms that infer optimal parameters for these models given data. In the experiments, we will validate the algorithms on artificial ground truth data and demonstrate their ability to recover the correct model parameters. We will show that the predictions made by these nonlinear models correspond better to the experimental data measured in-vivo than the predictions made by the established linear models. Furthermore, we systematically explore and compare a large space of plausible combinations of hyperparameters and preprocessing schemes in order to eliminate any effects of artefacts on the observed results. Training nonlinear sparse coding models is computationally more demanding than training linear models. In order to perform the numerical experiments described in this thesis we developed a software framework that facilitates the implementation of massive parallel expectation maximization (EM) based learning algorithms. This infrastructure was used for all experiments described in here, as well as by collaborators in projects we will not discuss. Some of the experiments required more than 1017 floating point operations and were run on a computer cluster running on up to 5000 CPU Cores in parallel. Our parallel framework enabled these experiments to be performed.
  • Das menschliche Gehirn ist ein beeindruckendes System: Nach Milliarden Jahren Evolution und durch lebenslanges Lernen verarbeitet es effizient eine große Menge einströmender Sinneseindrücke und extrahieren daraus handlungsrelevante Informationen. Es lernt unaufhörlich Strukturen in den einströmenden Daten zu erkennen um in Zukunft anstehende Aufgaben besser erfüllen zu können. Dabei ist es fehlertolerant und arbeitet typischerweise auch bei sehr ungenauen und mehrdeutigen Sinneseindrücken beeindruckend fehlerfrei und sichert somit unser Überleben. In der Wissenschaft und in verschiedenen technischen Disziplinen ist es ein lang gehegter Wunsch, die Prinzipien und Konzepte hinter dieser Art der Informationsverarbeitung zu verstehen. Kaum ein anderes System wird so interdisziplinär untersucht wie unser Gehirn: von den molekularen und biochemischen Abläufen innerhalb einzelner Zellen, über das kollektive Verhalten von kleineren und größeren neuronalen Netzwerken bis hin zum modularen Aufbau des Gehirns. Auch in der Informatik, der Wissenschaft, die sich mit dem Studium und der Konstruktion informationsverarbeitender Systeme beschäftigt, hofft man künstliche Systeme zu entwickeln, die zumindest einen Teil dieser Eigenschaften von den biologischen Vorbildern erben. Zwar sind wir weit davon entfernt eine umfassende Theorie über die Funktionsweise der Informationsverarbeitung im Gehirn zu haben, allerdings hat in den letzten Jahren einige Fortschritte gegeben. Datengetriebene Algorithmen, Verfahren also, die zunächst auf Daten trainiert werden bevor sie angewendet werden können sind inzwischen weit verbreitet und bilden die Kernbestandteile von z.B. Spracherkennungssystemen, Internet Suchmaschinen, Empfehlungssystemen und einer Vielzahl autonomer Systeme. Die Mehrzahl dieser Algorithmen sind entweder auf die eine oder andere Art biologisch inspiriert, oder können zumindest als grobes Modell für die Informationsverarbeitung in Teilbereichen von biologischen Gehirnen dienen. Das Ansprechverhalten einer Population von Neuronen in der ersten Verarbeitungsstufe für visuelle Daten im Kortex von Säugetieren zum Beispiel, der Simple-Cells in V1, kann näherungsweise durch Algorithmen wie Sparse Coding (SC), Independent Component Analysis (ICA) oder Factor Analysis (FA) modelliert werden. Diese bekannten und weit verbreiteten Algorithmen gehen davon aus, dass für jeden Sinneseindruck eine gewisse Anzahl sogenannter Dictionary-Einträge aktiviert werden. Diese werden durch lineare Superposition überlagert und können die beobachteten Daten somit erklären bzw. rekonstruieren. Ziel der Lernphase eines solchen Algorithmus ist es, einen möglichst allgemeingültigen Satz von Dictionary-Einträgen zu finden, der geeignet ist alle beobachteten Sinneseindrücke bestmöglich zu kodieren. In gewisser Weise spannen die Dictionary-Einträge somit den Raum aller interpretierbaren Beobachtungen auf.

Download full text files

  • JBornschein-2013.pdf
    eng

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Jörg BornscheinORCiDGND
URN:urn:nbn:de:hebis:30:3-329857
Document Type:Doctoral Thesis
Language:English
Year of Completion:2013
Year of first Publication:2013
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Release Date:2014/03/11
Page Number:141
Note:
Diese Dissertation steht außerhalb der Universitätsbibliothek leider (aus urheberrechtlichen Gründen) nicht im Volltext zur Verfügung, die CD-ROM kann (auch über Fernleihe) bei der UB Frankfurt am Main ausgeliehen werden.
HeBIS-PPN:363866353
Institutes:Informatik und Mathematik / Informatik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 000 Informatik, Informationswissenschaft, allgemeine Werke
1 Philosophie und Psychologie / 15 Psychologie / 150 Psychologie
Sammlungen:Universitätspublikationen
Licence (German):License LogoArchivex. zur Lesesaalplatznutzung § 52b UrhG