Loading…
Thumbnail Image

Towards an Universal Person Description Framework for Looking at People Applications

Goldmann, Lutz

Im vergangenen Jahrzehnt sind der Computer und das Internets zu einem wichtigen Bestandteil unseres täglichen Lebens geworden. Wir verwenden diese Technologien um zu kommunizieren, zu arbeiten, einzukaufen, und für unsere Unterhaltung. Die Zukunft sieht eine stärkere Einbettung dieser Technologien in unsere tägliche Umgebung (Heim, Büro und öffentliche Räume) vor. Dabei besteht das Ziel in der Entwicklung intelligenter Maschinen, die in der Lage sind, Menschen in einer Umgebung wahrzunehmen und helfend zur Seite zu stehen. Dafür bedarf es einer auf den Menschen fokusierten Analyse der hauptsächlich visuellen Daten, was auch als Looking at People'' bezeichnet wird. Die bisherigen Entwicklungen in diesem Forschungsgebiet sind stark von den Anforderungen bestimmter Anwendungen (z.B. Überwachung, Biometrie, Mensch-Maschine-Interaktion) geprägt. Das Ziel dieser Dissertation ist die Entwicklung eines universellen Systems für die visuelle Analyse des Menschen, welches diesen auf mehreren Ebenen anhand verschiedener Teile (Körper, Gesicht, Hände) und Merkmale (in Farbe, Textur, Form und Bewegung) beschreibt. In Analogie zur menschlichen Wahrnehmung kann dann abhängig von Anwendung oder Umgebungsbedingungen ein geeigneter Teil der Beschreibung berücksichtigt werden. Im Rahmen dieses universellen Systems liefert diese Dissertation wissenschaftliche Beiträge in verschiedenen Bereichen. Für die Gesichtsdetektion wurde ein neuer komponentenbasierter Ansatz entwickelt, der Techniken der statistischen und der strukturellen Mustererkennung miteinander vereint, um auch teilweise verdeckte Gesichter zu detektieren. Darüber hinaus ist der entwickelte Ansatz in der Lage, zusätzliche Informationen über das Vorhandensein und die Lage der Verdeckungen den folgenden Analyseschritten zur Verfügung zu stellen. Darauf basierend wurden existierende Ansätze der Gesichtserkennung durch eine intelligente Fusion erweitert, um die Robustheit bei teilweisen Verdeckungen zu erhöhen. Für die optimale Beschreibung der äußeren Erscheinung (Kleidung) eines Menschen wurden sowohl ganzheitliche als auch komponentenbasierte Modelle und eine große Auswahl an Farb- und Texturmerkmalen berücksichtigt. Um das System zur Detektion und Beschreibung von Personen auf seine Vielseitigkeit zu testen, wurden verschiedene Anwendungen entwickelt. Bei der ersten Anwendung handelt es sich um ein effizientes System zur audiovisuellen Suche von Personen in Videos anhand ihres Gesichts und ihrer Stimme. Die hohe Genauigkeit der Suche wurde dabei durch die Fusion der verschiedenen Modalitäten und die Integration des Nutzers in den Suchprozeß erreicht. Für die zweite Anwendung, einem System zur visuellen Suche von Personen in Bildern, wurde ein grundlegend anderer Ansatz verfolgt. Er basiert auf einer intuitiven Suchanfrage mittels eines visuellen Thesaurus, welcher die Personen in einer Datenbank anhand ihrer Ähnlichkeit gruppiert. In der letzten Anwendung wurde die Analyse der äußeren Erscheinung mit der von Bewegungen in einem System für personalisierte Mensch-Maschine-Interaktion kombiniert. Dieses System detektiert und verfolgt Personen, deren Gesichter und Hände, identifiziert sie und interpretiert ihre Gesten zur Steuerung eines intelligenten Bankautomaten. Obwohl sich diese Dissertation nur mit der Detektion und Beschreibung von Gesicht und Körper, basierend auf der äußeren Erscheinung befasst, können die grundlegenden Ideen auch auf andere Körperteile (Gliedmaßen, Hände), Merkmale (Form, Bewegung) und Aufgaben (Verfolgung) angewendet werden. Damit leistet diese Arbeit einen Beitrag zum schrittweisen Wandel von einer anwendungsbezogenen zu einer universellen visuellen Analyse des Menschen, welche es Maschinen ermöglicht, Menschen wahrzunehmen und auf natürliche Art und Weise zu reagieren.
During the last decade computers and the internet have become an important aspect in our everyday life. We use this technology to communicate, study, work, shop, and entertain ourselves. The vision of the future is to embed this computing technology into our home, transportation and working environments. The ultimate goal is to develop intelligent machines that are aware of humans and can assist them if required. Therefore, visual data needs to be analyzed with respect to humans which is often referred to as "looking at people". So far the developments within this area have been largely influenced by the interests and needs of specific applications (surveillance, biometrics, human computer interaction). The objective of this dissertation is to move towards an universal framework for the visual analysis of humans, that describes humans at several levels including different body parts (body, face, hands) and features (color, texture, shape and motion). Then, in analogy to the human visual perception, an appropriate subset of the provided information can be chosen, depending on environmental or application specific criteria. Within the scope of such a framework, this work provides scientific contributions in several areas. For face detection a novel component based face detection approach has been developed that combines techniques from the statistical and structural pattern recognition domain for improved performance especially in the presence of partial occlusions. It is not only able to detect faces despite occlusions, but can also provide additional occlusion information to subsequent face analysis steps. Based on that, existing appearance based face recognition approaches have been extended through occlusion awareness by selecting the most reliable representation. For appearance based body recognition both holistic and component based representations and a large set of color and texture features have been considered to determine the optimal description of a person's clothes. The developed framework has been used within several applications to prove its versatility. The first original application, that has been developed, is an efficient system for the audiovisual search of persons based on facial appearance and voice characteristics. A high retrieval performance is achieved through the combination of multimodal fusion and relevance feedback. For the second application, an original system for visual person search, a different query paradigm was used. It provides an intuitive query interface through an automatically derived human visual thesaurus that groups people based on their visual similarity. Finally, the appearance based analysis was combined with motion based analysis for a personalized human computer interface that detects, tracks and identifies humans and interprets their gestures for the use in an intelligent cash machine scenario. Although this dissertation focuses only on the appearance based description of face and body, ideas and findings may also be applied to other channels (hands, limbs), features (shape, motion) and tasks (tracking). Therefore it contributes to the gradual change from an application specific view towards a universal framework for the visual analysis of humans, which will enable machines to sense and react to humans in a more natural way.