Modellbasierte posen- und mimikinvariante Gesichtserkennung

Hähnel, Michael; Kraiss, Karl-Friedrich

doi:28583

Modellbasierte posen- und mimikinvariante Gesichtserkennung = Model-based pose and facial expression invariant face recognition

Hähnel, Michael (Author)

2008

Verantwortlichkeitsangabevorgelegt von Michael Hähnel

ImpressumMünchen : Hut 2008

UmfangXXVI, 167 S. : Ill., graph. Darst.

ISBN978-3-89963-703-8

ReiheIngenieurwissenschaften

Zugl.: Aachen, Techn. Hochsch., Diss., 2007

Zsfassung in engl. und dt. Sprache

Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
Kraiss, Karl-Friedrich (Thesis advisor)

Tag der mündlichen Prüfung/Habilitation
2007-11-23

Online
URN: urn:nbn:de:hbz:82-opus-22403
URL: https://publications.rwth-aachen.de/record/49893/files/Haehnel_Michael.pdf

Einrichtungen

Lehrstuhl und Institut für Mensch-Maschine-Interaktion (615210)

Inhaltliche Beschreibung (Schlagwörter)
Mimik (Genormte SW) ; Gesicht (Genormte SW) ; Biometrie (Genormte SW) ; Biometrisches Modell (Genormte SW) ; Kopf (Genormte SW) ; Informatik (frei) ; Gesichtserkennung (frei) ; 3D (frei) ; Bildvorverarbeitung (frei) ; Gesichtsnormalisierung (frei) ; face recognition (frei) ; image preprocessing (frei) ; face normalization (frei)

Thematische Einordnung (Klassifikation)
DDC: 004

Kurzfassung
Gegenstand der vorliegenden Arbeit ist die Entwicklung eines automatischen Gesichtserkennungssystems, das invariant gegenüber unterschiedlichen Gesichtsausdrücken und Kopfstellungen ist. Dies ist eine notwendige Bedingung für den Einsatz als nicht-intrusives Personenerkennungssystem. Existierende Gesichtserkennungsverfahren benötigen frontale, neutrale Ansichten von Gesichtern (Normansicht) zur Durchführung einer robusten Erkennung. Um unter Verwendung dieser Verfahren eine zuverlässige Klassifikation bei variierenden Kopforientierungen und Gesichtsausdrücken zu ermöglichen, erfolgt in der vorliegenden Arbeit eine komplexe Vorverarbeitung allgemeiner Kopfbilder durch einen modellbasierten Normalisierungsansatz, der allgemeine Kopfbilder in eine Normansicht überführt. Zur Generierung der Normansicht wird zunächst die Größe und Position des Gesichts durch einen effizienten, holistischen Detektionsalgorithmus bestimmt. Anschließend erfolgt die Lokalisierung von Gesichtsmerkmalen mit Hilfe eines statistischen Gesichtsmodells, in das sowohl die Texturinformation als auch die Position der Merkmale von Beispielgesichtern trainiert wird. Durch einen iterativen Anpassungsalgorithmus werden die Werte der Modellparameter so ermittelt, dass das Modell das gezeigte Gesicht optimal repräsentiert. Hierdurch ergeben sich dann die Positionen der Gesichtsmerkmale im zu verarbeitenden Bild. Der darauf folgende zweistufige Anpassungsprozess des Kopfmodells basiert auf der Definition von Korrespondenzen mehrerer Gesichtsmerkmale zwischen 2D-Bild und 3D-Modell. Durch die Optimierung der Parameter von affinen Transformationen wird das Modell zunächst an die gezeigte Kopfstellung angepasst. Dabei minimiert ein Optimierungsprozess die Abstände zwischen 2D-Gesichtsmerkmalspositionen und korrespondierenden, projizierten 3D-Kopfmodellknoten. Zur exakteren Modellierung der individuellen Gesichtsproportionen und des gezeigten Gesichtsausdrucks folgt in einem zweiten Schritt die Verzerrung des Kopfmodells mit Hilfe einer lokal wirksamen RBF-Interpolation. Nach der Anpassung an das Bild wird das Modell texturiert, in seine (neutrale) Referenzform transformiert sowie die Bildinformation einer gegebenenfalls verdeckten Gesichtshälfte rekonstruiert. Die Projektion in eine geeignete Bildebene liefert abschließend die neutrale Frontalansicht. Die Leistungsfähigkeit des Normalisierungsansatzes wurde in einer umfassenden Evaluierung überprüft. Aus den vielen Detailergebnissen lassen sich folgende Hauptergebnisse ableiten: Eine Erkennungsleistung von 89,4% wird bei einer maximalen horizontalen Abweichung der Kopfstellung (links-rechts) von 45° und einer maximalen vertikalen Abweichung (oben-unten) von 20° sowie variierender Mimik gemessen auf einer Datenbank von 12 Personen mit einem Trainingsbild pro Person und insgesamt 1824 Testbildern erreicht (Überwachungsszenario). Dies ist eine signifikante Leistungssteigerung im Vergleich zur Erkennung ohne Gesichtsnormalisierung (42,2%). Bei ausschließlicher Mimikvariation in den Testbildern und neutralen Trainingsansichten ergibt sich eine Rate von 98,4% (Passbildszenario, Tests mit 21 Personen und 3 Testbildern pro Person). Der entwickelte Normalisierungsansatz unter Verwendung eines einzelnen generischen 3D-Kopfmodells ist eine effiziente und robuste Methode zur posen- und mimikinvarianten Gesichtserkennung, die im Gegensatz zu existierenden Verfahren keinen manuellen Eingriff benötigt. Insbesondere die automatische und kombinierte Verarbeitung von Gesichtsausdrücken und Kopfstellungen im betrachteten Posenbereich ohne die Verwendung oder Generierung von umfangreichen Bilddatenbanken ist innovativ und wird von dem vorgestellten Ansatz erstmals ermöglicht.

In this thesis, an automatic face recognition system is developed which is invariant against varying facial expressions and poses. This is an essential condition for the application as a non-intrusive person recognition system.Existing face recognition systems require a frontal, neutral view of faces (norm-face) to perform a robust classification. To achieve a robust recognition using these methods under varying head orientations and facial expressions, a sophisticated pre-processing of general facial images is introduced which is capable of transforming a general facial image into a norm-face image using a model-based normalization approach. For generating the norm-face image the size and the position of the face is determined using an efficient, holistic detection algorithm. Afterwards, facial landmarks are localized using a statistical face model that combines textural information as well as the position of the facial landmarks extracted from sample (facial) views. By applying an iterative fitting algorithm, the values of the model parameters are determined so that the model represents the original facial image in an optimal way. The position of the facial landmarks in the processed image can then be derived. The subsequent, two-stage head model fitting process is based on the definition of correspondences of multiple facial features between the 2D image and the 3D model. By optimizing the parameters of an affine transformation the model is initially adapted to the head pose. The optimization process minimizes the distances between the 2D facial landmarks and the corresponding, projected 3D model vertices. In the second step, a distortion of the head model using a locally effective RBF interpolation is performed for a more precise modeling of the individual facial proportions and the shown facial expression. After the fitting process, the model is textured, re-transformed into its original reference form and the image information of a possibly occluded face half is reconstructed. The final projection into a suitable image plane results in a neutral frontal view. The performance of this normalization approach was comprehensively evaluated. From all detailed results two main conclusion can be derived: A recognition performance of 89,4% is achieved when the pose deviation is up to a maximum of 45° horizontally (left-right) and 20° vertically (up-down) when different facial expression are present at the same time. This was measured on a database of 12 persons using a single training image for each person and in total 1824 test images (surveillance scenario). This states a significant performance increase in comparison to the recognition without face normalization (42,2%). Are solely facial expression changes present in the test images and neutral views are used for training, the recognition rate is 98,4% (passport scenario, 21 persons and three training images per person). The presented normalization approach using a single, generic 3D head model is an efficient and robust method for pose and facial expression invariant face recognition which in comparison to existing approaches does not require any manual intervention. Especially the automatic and combined processing of facial expressions and head poses in the considered range without usage or generation of vast image databases is innovative and provided by the presented approach for the first time.

Fulltext:
PDF