Robustness analysis of deep neural networks in the presence of adversarial perturbations and noisy labels

Balda Canizares, Emilio Rafael; Mathar, Rudolf; Leibe, Bastian

doi:38869

Robustness analysis of deep neural networks in the presence of adversarial perturbations and noisy labels

Balda Canizares, Emilio Rafael^RWTH*

2019 & 2020

VerantwortlichkeitsangabeEmilio Rafael Balda Cañizares

Ausgabe1. Auflage

ImpressumAachen : Apprimus 2019

Umfang1 Online-Ressource (vi, 125 Seiten) : Illustrationen, Diagramme

ISBN978-3-86359-802-0

ReiheElektro- und Informationstechnik

Dissertation, RWTH Aachen University, 2019

Druckausgabe: 2019. - Auch veröffentlicht auf dem Publikationsserver der RWTH Aachen University 2020

Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
Mathar, Rudolf (Thesis advisor)^RWTH* ; Leibe, Bastian (Thesis advisor)^RWTH*

Tag der mündlichen Prüfung/Habilitation
2019-11-18

Online
DOI: 10.18154/RWTH-2020-00698
URL: https://publications.rwth-aachen.de/record/780519/files/780519.pdf

Einrichtungen

Lehrstuhl und Institut für Theoretische Informationstechnik (613410)

Inhaltliche Beschreibung (Schlagwörter)
machine learning (frei) ; neural networks (frei)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
In dieser Arbeit untersuchen wir die Robustheit und Verallgemeinerungseigenschaften von Deep Neural Networks (DNNs) unter verschiedenen rauschbehafteten Bedingungen, die auf fehlerhafte Eingaben oder Bezeichnungen zurückzuführen sind. Solche Verfälschungen können entweder zufällig oder absichtlich vorgenommen werden, um den Ziel-DNN zu stören. Eingaben, die durch in böswilliger Absicht entworfene Störungen verfälscht wurden, sind als widersprüchliche Beispiele bekannt und beeinträchtigen nachweislich die Leistung von DNNs erheblich. Aufgrund der Nichtlinearität von DNNs ist das Herstellen solcher Störungen jedoch nicht trivial. Wir befassen uns zunächst mit dem Problem, Algorithmen zur Erzeugung von konträren Beispielen zu entwerfen, die als konträre Angriffe bezeichnet werden. Wir beginnen mit einer allgemeinen Formulierung dieses Problems und schlagen durch sukzessive konvexe Relaxationen einen Rahmen für die Berechnung von widersprüchlichen Beispielen unter verschiedenen gewünschten Bedingungen vor. Mit diesem Ansatz leiten wir neuartige Methoden ab, die bestehende Algorithmen in getesteten Szenarien konsequent übertreffen. Darüber hinaus werden neue Algorithmen für Regressionsprobleme formuliert. Wir zeigen, dass die Anfälligkeit von Gegnern auch bei verschiedenen Regressionsaufgaben eine Rolle spielt, ein Problem, das bisher in der Literatur übersehen wurde. Obwohl umfangreiche Arbeiten zum Entwurf und Verständnis von DNNs durchgeführt wurden, die gegen diese Angriffe resistent sind, sind ihre Generalisierungseigenschaften weniger bekannt. Wie gut verallgemeinert sich die gegnerische Robustheit vom Trainingssatz auf unsichtbare Daten? Wir verwenden die Statistical Learning Theory (SLT), um das sogenannte kontradiktorische Risiko von DNNs zu begrenzen. Der Nachweis von SLT-Grenzen für tiefes Lernen ist eine fortlaufende Forschung mit verschiedenen bestehenden Rahmenbedingungen. Unter diesen SLT-Frameworks wählen wir eine auf Komprimierung basierende Technik aus, die die neuesten Ergebnisse für DNNs im nicht-kontradiktorischen Regime liefert. Unsere Bindung nutzt die durch das kontradiktorische Training induzierten Sparsity-Strukturen und ist nicht explizit von der Input-Dimension oder der Anzahl der Klassen abhängig. Dieses Ergebnis stellt eine Verbesserung gegenüber bestehenden Grenzen dar. Um diese Arbeit abzuschließen, konzentrieren wir uns von gestörten Eingaben auf rauschbehaftete Beschriftungen und analysieren, wie DNNs lernen, wenn ein Teil der Eingaben falsch beschriftet ist. In diesem Aufbau verwenden wir die Informationstheorie, um das Verhalten von Klassifikatoren zu charakterisieren. Unter verrauschten Bezeichnungen untersuchen wir die Flugbahn von DNNs in der Informationsebene, die durch die Entropie geschätzter Bezeichnungen und die bedingte Entropie zwischen gegebenen und geschätzten Bezeichnungen gebildet wird. Wir analysieren die Flugbahn in der Informationsebene und zeigen die Entrauschungsfähigkeit von DNNs. In vereinfachten Szenarien können wir diese Trajektorien für einschichtige neuronale Netze, die mit stochastischem Gradientenabstieg trainiert wurden, analytisch charakterisieren. Dieses Ergebnis zeigt eine Flugbahn für richtig trainierte Netzwerke, die unter DNNs in realen Bildklassifizierungsaufgaben konsistent zu sein scheint. Darüber hinaus zeigen wir, dass unter- und überausgestattete sowie gut trainierte DNNs in der Informationsebene signifikant unterschiedliche Flugbahnen aufweisen. Solche Phänomene sind nicht sichtbar, wenn nur Trainings- und Validierungsfehler berücksichtigt werden. Diese Ergebnisse zeigen, dass informationstheoretische Größen eine umfassendere Sicht auf den Lernprozess bieten als Standard-Trainings- und Validierungsfehler.

In this thesis, we study the robustness and generalization properties of Deep Neural Networks (DNNs) under various noisy regimes, due to corrupted inputs or labels. Such corruptions can be either random or intentionally crafted to disturb the target DNN. Inputs corrupted by maliciously designed perturbations are known as adversarial examples and have been shown to severely degrade the performance of DNNs. However, due to the non-linearity of DNNs, crafting such perturbations is non-trivial. We first address the problem of designing algorithms for generating adversarial examples, known as adversarial attacks. We start with a general formulation of this problem and, through successive convex relaxations, propose a framework for computing adversarial examples under various desired constraints. Using this approach, we derive novel methods that consistently outperform existing algorithms in tested scenarios. In addition, new algorithms are also formulated for regression problems. We show that adversarial vulnerability is also an issue in various regression tasks, a problem that has so far been overlooked in the literature. While there has been a vast amount of work on the design and understanding of DNNs resistant to these attacks, their generalization properties are less understood. How well does adversarial robustness generalize from the training set to unseen data? We use Statistical Learning Theory (SLT) to bound the so-called adversarial risk of DNNs. Proving SLT bounds for deep learning is on-going research with various existing frameworks. Among these SLT frameworks, we choose a compression-based technique that established state of the art results for DNNs in the non-adversarial regime. Our bound leverages the sparsity structures induced by adversarial training and has no explicit dependence on the input dimension or the number of classes. This result constitutes an improvement over existing bounds. To complete this work, we shift our focus from perturbed inputs to noisy labels and analyze how DNNs learn when a portion of the inputs is incorrectly labeled. In this setup, we use information theory to characterize the behavior of classifiers. Under noisy labels, we study the trajectory of DNNs in the information plane, formed by the entropy of estimated labels and the conditional entropy between given and estimated labels. We analyze the trajectory in the information plane and show the de-noising capabilities of DNNs. Under simplified scenarios, we are able to analytically characterize these trajectories for one-layer neural networks trained with stochastic gradient descent. This result shows a trajectory for properly trained networks that seems to be consistent among DNNs in real image classification tasks. In addition, we show that underfitted, overfitted and well-trained DNNs exhibit significantly different trajectories in the information plane. Such phenomena are not visible when considering only training and validation error. These results show that information-theoretic quantities provide a richer view of the learning process than standard training and validation error.

OpenAccess:
PDF
(additional files)