Robust Forensic Analysis of Strongly Compressed Images
Language
Document Type
Issue Date
Issue Year
Authors
Editor
Abstract
Digital images and videos have taken an outstanding role in many areas of everyday life, e.g., for documentation and communication of events. However, the availability of sophisticated software applications makes it straightforward to realistically manipulate digital footage. This can entail detrimental consequences. The goal of multimedia forensics is to provide as much information as possible on the origin, history and authenticity of multimedia samples. Over the past two decades, numerous successful algorithms have been proposed to address this goal. One of the major contemporary challenges of multimedia forensics is to maintain algorithm performance under strong lossy compression. Lossy compression sacrifices signal fidelity for reduced bit rates, and is particularly widespread in online and mobile applications. In this dissertation, we present several contributions for robust forensic analysis of strongly compressed images. First, we propose a taxonomy of existing multimedia forensics algorithms, that categorizes approaches based on their relation to compression. We identify three major groups: The family of statistics-based algorithms being impeded by compression, the family of compression-based algorithms that are symbiotic to compression, and the family of physics-based approaches that are largely insensitive to compression. Based on this categorization, we identify common strengths and major limitations, as well as potential remedies. Second, we make several algorithmic contributions in the group of physics-based and statistics-based methods for robust and flexible forensic image analysis. Arguably the main limitations of physics-based approaches are their restrictive assumptions on scene composition, and often requiring manual annotations. Different from other color-based works that solely model the illuminant color, we propose a more descriptive forensic cue that jointly models the influence of in-camera processing and illuminant conditions in a supervised fashion. We further propose a metric learning- based extension of the color descriptor, that requires much weaker supervision, and thereby is amenable to significantly larger training datasets, enhancing performance. We show that our proposed descriptor is very robust against compression, and that it outperforms state-of-the-art splicing detectors on low-quality images, without being restricted to particular scene composition and without requiring user input. One of the main limitations of statistics-based approaches is that they typically strongly deteriorate in the presence of compression. To assess their real-world applicability to compressed images, it is critical to evaluate algorithms on rigorous realistic test cases. We argue that this is infeasible for camera identification using existing databases, and propose a novel database to close this gap. Using this database, we investigate the robustness of learning-based camera identification. We present an approach that significantly outperforms the state-of-the-art in camera identification, both on clean and strongly compressed images. We further find that using compression as data augmentation can significantly improve performance on compressed images, even for completely unknown compression algorithms.
Abstract
Digitale Bilder und Videos haben einen herausragenden Stellenwert in vielen Bereichen des Alltags eingenommen, etwa bei der Dokumentation und Kommunikation von Ereignissen. Jedoch macht es die Verfügbarkeit von ausgefeilten Softwareapplikationen einfach, digitales Bildmaterial realistisch zu manipulieren. Dies kann drastische Konsequenzen nach sich ziehen. Das Ziel der Multimediaforensik ist es, so viele Informationen wie möglich über den Ursprung, die Historie und die Authentizität von Multimediadaten zur Verfügung zu stellen. Innerhalb der letzten zwanzig Jahre wurden zahlreiche erfolgreiche Algorithmen für dieses Ziel entwickelt. Eine der größten aktuellen Herausforderungen für die Multimediaforensik ist, die Leistungsfähigkeit der Algorithmen auch bei starker verlustbehafteter Kompression aufrechtzuerhalten. Verlustbehaftete Kompression opfert Signalgüte für reduzierte Bitraten, was vor allem bei Online- und mobilen Applikationen häufig zum Einsatz kommt. In dieser Dissertation werden mehrere Beiträge für die robuste forensische Analyse von stark komprimierten Bildern präsentiert. Zunächst wird eine Taxonomie vorgestellt, die existierende Ansätze innerhalb der Multimediaforensik kategorisiert. Dabei werden drei Gruppen identifiziert: Statistikbasierte Ansätze, deren Güte unter Kompression leidet; kompressionsbasierte Ansätze, die in Symbiose zu Kompression stehen; sowie physikbasierte Ansätze, die weitestgehend unempfindlich gegenüber Kompression sind. Damit werden weiter gemeinsame Stärken, die größten Herausforderungen und potentielle Lösungsansätze identifiziert. Als Zweites werden mehrere algorithmische Beiträge innerhalb der physikbasierten und statistikbasierten Methoden entwickelt, die eine robuste und flexible forensische Bildanalyse ermöglichen. Die wohl größten Einschränkungen physikbasierter Ansätze sind ihre restriktiven Annahmen über die Szenenkonstellation und dass sie oft Annotationen benötigen. Im Gegensatz zu anderen farbbasierten Arbeiten, die lediglich die Beleuchtungsfarbe modellieren, schlagen wir einen expressiveren forensischen Deskriptor vor, der den gemeinsamen Einfluss der kamerainternen Verarbeitung und der Beleuchtungsbedindungen in einem überwachten Ansatz modelliert. Danach erweitern wir diesen Ansatz, die Farbgebungsbedingungen in einem metrischen Raum zu modellieren, was mit deutlich geringer Überwachung auskommt. Dies wiederum lässt deutlich größere Trainingsdatensätze zu, was die Leistungsfähigkeit verbessert. Es wird gezeigt, dass der Ansatz sehr robust gegenüber Kompression ist und für Bilder von niedriger Qualität die bisher besten Algorithmen zur Fälschungserkennung übertrifft, ohne eine bestimmte Szenenkonstellation oder Nutzereingaben zu benötigen. Mit die größte Einschränkung statistikbasierter Ansätze ist, dass sie bei Kompression oft deutlich schlechter werden. Um ihre praktische Anwendbarkeit bei Kompression einzuschätzen, ist es unerlässlich, sie unter rigorosen Bedingungen zu testen. Wir erörtern, dass dies für Kameraerkennung mit existierenden Datenbanken nicht möglich ist und entwickeln eine neue Datenbank, die diese Lücke schließt. Damit wird die Robustheit von lernbasierter Kameraerkennung untersucht. Es wird ein Ansatz vorgestellt, der die bis dato besten Ansätze qualitätsunabhängig deutlich übertrifft. Eine weitere Erkenntnis ist, dass Kompression als Augmentation deutlich die Genauigkeit auf komprimierten Bildern erhöht, sogar für unbekannte Kompressionsalgorithmen.