Methoden der vision-basierten Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicrobotern

Methods of vision-based User Perception for a natural Interaction with mobile Service Robots In man-machine communication, particularly in the field of service robotics, the perception of the user is often constricted to people detection and tracking. This is in strong contrast to communication between people, where social information like gender, age, identity and facial expression is essential. The assumption of this thesis is that an improved perception of the user's state is necessary for future service robots to be successfully deployed in human centered service tasks. The example application is a service robot helping customers in a home store to find the desired products. During interaction, the robot should show a certain degree of social competence, e.g. by detecting persons and establishing and keeping eye contact. Furthermore, it should be able to build user models, identify known users robustly and estimate their affections by determining gender, age, identity and facial expression from video images. To realize this functionality, a biologically motivated separation into a peripheral and a foveal vision system is proposed. The former uses images of an omnidirectional camera with a large field of view but relatively low resolution to generate hypotheses of the position of potential users in the surroundings of the robot. Therefore, skin color and movement as well as the measurements of sonar sensors are integrated into a saliency map. Salient structures are tracked by a multi target tracking system based on the CONDENSATION algorithm. To realize a skin color detection which is insensitive to changes of the illumination chrominance, an automatic white balance algorithm was developed which takes advantage of the special geometry of the omnidirectional objective. After selecting a hypothesis, the head of the robot is continously directed in its direction. In this way, the user receives a feedback signal of the robots attention, while the robot is able to capture high resolution images of the users face suitable for a further two step analysis. The first step produces a normalized view of the users face by detecting the face and the eyes and applying affine image transformations. For the analysis itself, three methods were implemented and tested: Elastic Graph Matching, Independent Component Analysis and Active Appearance Models. With respect to the estimation of gender, age, facial expression and identity a comprehensive face image database was recorded for training and testing the different methods. The efficiency of the integrated system was demonstrated by empirical experiments.

Methoden der vision-basierten Nutzerwahrnehmung für eine natürliche Interaktion mit mobilen Servicerobotern Im Gegensatz zur zwischenmenschlichen Kommunikation, bei der die Beziehungsebene im Vergleich zur Sachebene den weitaus größeren Anteil einnimmt, wird diese bei der Mensch-Roboter-Interaktion bislang nur in Ansätzen berücksichtigt. Insbesondere die Nutzerwahrnehmung bleibt in der Regel auf eine reine Personendetektion oder ein einfaches Personen-Tracking beschränkt. Vor diesem Hintergrund wurde eine verbesserte Wahrnehmung des aktuellen Zustandes des Nutzers als Voraussetzung für eine Personalisierung des Dialogs als Zielstellung dieser Arbeit abgeleitet. Beim exemplarischen Anwendungsszenario handelt es sich um einen Shopping-Assistenten, der in einem Baumarkt den Kunden bei der Suche nach Produkten behilflich ist. Dieser sollte zumindest einen gewissen Grad an sozialer Kompetenz zeigen, indem er z.B. Personen in seiner Umgebung detektiert und während der Interaktion kontinuierlich Blickkontakt hält. Um Nutzermodelle erstellen, kurzzeitig verlorene Nutzer wiedererkennen und den Gemütszustand des Nutzers abschätzen zu können, sollen Geschlecht, Alter, Identität und Gesichtsausdruck des Nutzers aus einem Videobild ermittelt werden. Für die Realisierung dieser Aufgabe wurde eine biologisch motivierte Aufteilung in ein peripheres und ein foveales Vision-System vorgeschlagen. Das periphere System arbeitet auf den Bildern einer omnidirektionalen Kamera und verfügt damit über einen sehr großen Sichtbereich, aber nur eine vergleichsweise geringe Auflösung. In diesem System werden zunächst Hypothesen über die Position von Personen im Umfeld des Roboters gebildet. Dafür werden Hautfarbe, Bewegung und Entfernung in einer Auffälligkeitskarte integriert und auffällige Bildbereiche mittels eines Multi-Target-Trackers verfolgt. Für die omnidirektionale Kamera wurde ein automatischer Weißabgleich entwickelt, der die Hautfarbdetektion unempfindlich gegen Änderungen der Chrominanz der Beleuchtung macht. Nach Auswahl einer Nutzerhypothese wird der Kopf des Roboters kontinuierlich in die entsprechende Richtung ausgerichtet. Damit erhält der Nutzer zum einen eine Rückmeldung über die gerichtete Aufmerksamkeit des Roboters während der Interaktion. Zum anderen kann der Roboter hochaufgelöste Bilder der Person aufnehmen, so dass eine weitere nachfolgende Analyse ermöglicht wird. Diese ist wiederum in zwei Teilschritte unterteilt. Der erste Schritt besteht aus einer Detektion des Gesichtes und einer anschließenden Detektion der Augen, anhand derer eine normalisierte Darstellung des Gesichtes erzeugt wird. Für den Analyseschritt wurden das Elastic-Graph-Matching, die Independent Component Analysis und die Active-Appearance Models implementiert und vergleichend untersucht. Unter Berücksichtigung der Anforderungen einer Geschlechts-, Alters-, Mimik- und Identitätsschätzung wurde hierfür eine umfassende Gesichtsdatenbank zum Training und zum Test der Verfahren angelegt. Die Leistungsfähigkeit des Gesamtsystems wurde schließlich anhand von empirischen Experimenten demonstriert.

Zitieren

Zitierform:
Zitierform konnte nicht geladen werden.