Volltextdatei(en) vorhanden
Titel: Unsupervised Learning of Human-Object Interactions with Neural Network Self-Organization
Sonstige Titel: Unbeaufsichtigtes Lernen von Mensch-Objekt-Interaktionen mit der Selbstorganisation von neuronalen Netzwerken
Sprache: Englisch
Autor*in: Mici, Luiza
Schlagwörter: Action Recognition; Object Recognition; Artificial Neural Networks; Unsupervised Learning
Erscheinungsdatum: 2018
Tag der mündlichen Prüfung: 2018-11-27
Zusammenfassung: 
Understanding human actions is crucial for establishing an effective interaction between an assistive system and humans in the real world. Humans are able to understand others' behavior by interpreting body movements and finding relevant contextual cues in their surroundings. Such ability is supported by a highly developed visual system that creates a coherent perceptual experience by effortlessly integrating different sources of information. Furthermore, the human brain is continuously projected into the future, hence anticipating the development and the intentions of the observed actions.
Artificial systems, however, are far from a human-like performance in these tasks. The reliable recognition and anticipation of human actions from multiple visual cues still remain an open challenge.

In this thesis, we focus on human daily activities that involve interactions with objects. We aim at designing artificial learning systems for the recognition and prediction of human-object interactions while considering interdisciplinary aspects of neuroscience and human psychology for the two perception tasks. We apply hierarchical arrangements of self-organizing neural networks that resemble the cortical processing of action features with an increasing complexity of representation. We introduce a novel architecture that can segment and recognize the manipulated objects from a scene and map them to their action possibilities in an unsupervised manner. The spatiotemporal representations obtained through the self-organizing learning are then associated with symbolic labels for the classifications of the human-object interactions. We evaluate our model with two different corpora containing fine-grained human daily activities in home-like scenarios and demonstrate that our model is competitive with respect to supervised state-of-the-art approaches.

We address human action anticipation by focusing on both what will happen next and how the action will be performed. First, we present and discuss a novel hierarchical self-organizing architecture for the incremental learning and prediction of human motion patterns. Our experimental results demonstrate that self-organization can account for robust body motion prediction, yielding high performance during the online adaptation also in the presence of missing data samples. Then, we introduce a temporal association mechanism for storing goal-oriented action sequences of arbitrary lengths into our model. We demonstrate that both short-term and long-term temporal dependencies of the human actions can be learned with the same underlying neural mechanism, thereby allowing for the anticipation of actions in a longer activity sequence. Finally, we present and analyze an approach with top-down feedback connectivity that uses the classification error to modulate the neural growth of a self-organizing hierarchy. We show how the interplay between feedforward and feedback connectivity generates an adequate number of prototype neurons and promotes the learning of compact representations of actions from the sensory input.

This thesis contributes to the field of visual recognition and prediction of human-object interactions with a set of novel models that take inspiration from biological mechanisms of action perception serving as a stepping-stone for different future research directions.

Menschliche Aktionen zu verstehen ist äußerst wichtig, um ein effektives Zusammenspiel zwischen einem Hilfssystem und Menschen in Szenarien der realen Welt herzustellen. Menschen sind im Stande das Verhalten anderer zu verstehen, indem sie ihre Körpersprache interpretieren und relevante, kontextbezogene Hinweise in der Umgebung finden. Solche Fähigkeit wird von einem hochentwickelten visuellen System unterstützt, das durch eine mühelose Integration verschiedener Informationsquellen ein einheitliches Wahrnehmungserlebnis hervorbringt. Zudem projiziert das menschliche Gehirn kontinuierlich die Zukunft und sagt so die zukünftige Entwicklung und die Absichten der beobachteten Aktionen voraus. Künstliche Systeme sind jedoch noch weit davon entfernt Aufgaben so auszuführen, wie es einem Menschen möglich ist. Die zuverlässige Erfassung und Voraussage menschlichen Handelns mittels verschiedener visueller Hinweise bleibt noch immer eine Herausforderung.

In der vorliegende Arbeit fokussieren wir uns auf menschlich Aktivitäten des täglichen Lebens, die den Umgang mit Objekten beinhalten. Wir streben an, ein künstliches Lernsystem für die Erkennung und Prognose von Interaktionen zwischen Mensch und Objekt zu entwickeln, während wir interdisziplinäre Aspekte der zwei Wahrnehmungsaufgaben betrachten. Wir wenden hierarchische Anordnungen selbstorganisierender neuronaler Netze mit Schicht für Schicht höher werdender Darstellungskomplexität an, die der kortikalen Verarbeitung von Handlungseigenschaften gleichen. Wir stellen eine neuartige Architektur vor, die manipulierte Gegenstände in einer Szene identifizieren kann und mögliche Handlungen für diese in unüberwachter Weise bestimmt. Die räumlichen und temporalen Darstellungen, die durch das selbst organisierte Lernen erlangt werden, werden mit symbolischen Labeln für die Klassification von Mensch-Objekt-Interaktionen verbunden. Wir evaluieren unser Modell an zwei unterschiedlichen Korpora, welche detailgenaue Tagesaktivitäten in alltäglichen Szenarien häuslich darstellen, und demonstrieren damit die Wettbewerbsfähigkeit unseres Modells mit den aktuellen Stand der Forschung.

Zuerst präsentieren und diskutieren wir eine neuartige, selbst organisierte und hierarchische Architektur für das inkrementelle Lernen und für die Vorhersage menschlicher Bewegungsmuster. Unsere experimentellen Ergebnisse demonstrieren, dass Selbstorganisation eine robuste Erkennung von Bewegungsmustern gewährleistet, was auch im Falle von fehlenden Beispieldaten guten Ergebnissen während der Online-Anpassung führt. Außerdem erweitern wir unser Model mit einem Assoziationssmechanismus zum Speichern von zielorientierten Aktionssequenzen beliebiger Länge. Wir demonstrieren anhand von verschiedenen Experimenten, dass kurzfristige und langfristige Abhängigkeiten menschlicher Handlungen mit demselben zugrundeliegenden neuralem Mechanismus erlernt werden können, wodurch die Antizipation von Handlungen in Langzeitsequenzen ermöglicht wird. Schließlich präsentieren und analysieren wir eine top-down Feedbackverbindung die Klassifizierungsfehler nutzt, um das neuronale Wachstum einer selbstorganisierten Hierarchie zu modulieren. Wir zeigen, wie das Zusammenspiel zwischen Feedforward- und Feedback-Konnektivität eine ausreichende Anzahl an Prototyp-Neuronen generiert und das Erlernen der aktionsrelevanten Repräsentationen aus sensorischem Input begünstigt.

Diese Arbeit trägt zum Feld der visuellen Erkennung und Vorhersage von Mensch-Objekt Interaktionen bei. Eine Reihe von Modellen, die von biologischen Mechanismen der Handlungswahrnehmung inspiriert sind, dienen dabei als Sprungbrett für zukünftige Forschungsrichtungen.
URL: https://ediss.sub.uni-hamburg.de/handle/ediss/7969
URN: urn:nbn:de:gbv:18-94820
Dokumenttyp: Dissertation
Betreuer*in: Wermter, Stefan (Prof. Dr.)
Enthalten in den Sammlungen:Elektronische Dissertationen und Habilitationen

Dateien zu dieser Ressource:
Datei Beschreibung Prüfsumme GrößeFormat  
Dissertation.pdf93bf18740f37c98a12e5ab9b5354a91f10.27 MBAdobe PDFÖffnen/Anzeigen
Zur Langanzeige

Diese Publikation steht in elektronischer Form im Internet bereit und kann gelesen werden. Über den freien Zugang hinaus wurden durch die Urheberin / den Urheber keine weiteren Rechte eingeräumt. Nutzungshandlungen (wie zum Beispiel der Download, das Bearbeiten, das Weiterverbreiten) sind daher nur im Rahmen der gesetzlichen Erlaubnisse des Urheberrechtsgesetzes (UrhG) erlaubt. Dies gilt für die Publikation sowie für ihre einzelnen Bestandteile, soweit nichts Anderes ausgewiesen ist.

Info

Seitenansichten

570
Letzte Woche
Letzten Monat
geprüft am 27.03.2024

Download(s)

177
Letzte Woche
Letzten Monat
geprüft am 27.03.2024
Werkzeuge

Google ScholarTM

Prüfe