h1

h2

h3

h4

h5
h6
http://join2-wiki.gsi.de/foswiki/pub/Main/Artwork/join2_logo100x88.png

Design and implementation of number representations for efficient multiplierless acceleration of convolutional neural networks



Verantwortlichkeitsangabevorgelegt von Sebastian A. A. Vogel, M.Sc.

ImpressumAachen 2020

Umfang1 Online-Ressource (xii, 136 Seiten) : Illustrationen, Diagramme


Dissertation, Rheinisch-Westfälische Technische Hochschule Aachen, 2020

Veröffentlicht auf dem Publikationsserver der RWTH Aachen University


Genehmigende Fakultät
Fak06

Hauptberichter/Gutachter
;

Tag der mündlichen Prüfung/Habilitation
2020-01-10

Online
DOI: 10.18154/RWTH-2020-01952
URL: https://publications.rwth-aachen.de/record/782557/files/782557.pdf

Einrichtungen

  1. Lehrstuhl für Integrierte Systeme der Signalverarbeitung (611810)

Inhaltliche Beschreibung (Schlagwörter)
convolutional neural networks (frei) ; efficient machine learning (frei) ; number representation (frei) ; quantization (frei)

Thematische Einordnung (Klassifikation)
DDC: 621.3

Kurzfassung
Heutzutage werden Computer-Vision-Probleme mit beispielloser Genauigkeit mithilfe von Convolutional Neural Networks (CNNs) gelöst, einem biologisch inspirierten Konzept des maschinellen Lernens. Der hohe Rechenaufwand von CNNs verhindert jedoch deren allgegenwärtige Bereitstellung in eingebetteten Systemen und Systemen mit eingeschränkten Ressourcen. Aus diesem Grund wurden in letzter Zeit mehr und mehr Ansätze für dedizierte CNN-Hardwarebeschleuniger sowohl in der Wissenschaft als auch in der Industrie vorgestellt. Ein wesentlicher Konstruktionsparameter solcher Beschleunigersysteme, der die Anforderungen an Speicher, Bandbreite, Energie und algorithmische Genauigkeit beeinflusst, ist die unterstützte Zahlendarstellung. In dieser Hinsicht zeigten Untersuchungen, dass neuronale Netze gegenüber einer Festpunktquantisierung von Parametern und Zwischenwerten robust sind. Der Forschungsschwerpunkt dieser Arbeit liegt sowohl auf dem Entwurf und der Implementierung neuartiger Zahlendarstellungen als auch auf der Erweiterung entsprechender Quantisierungsmethoden für CNNs. In dieser Arbeit werden insbesondere neuartige Konzepte zur Vermeidung von Hardware-Multiplikatoren zur Steigerung der Energie- und Flächeneffizienz von Beschleunigersystemen vorgeschlagen. Im ersten Teil der Arbeit werden frühere Festkommaquantisierungsmethoden besprochen und eine self-supervised Erweiterung vorgeschlagen, die die Quantisierungsergebnisse speziell für vortrainierte neuronale Netze verbessert. Diese Methode bildet die Grundlage für weitere Quantisierungsverfahren in der restlichen Arbeit.Im zweiten Teil werden CNNs bewertet, die für Klassifizierungsaufgaben mit binären oder ternärwertigen Parametern trainiert wurden. Darüber hinaus wird eine hardwareeffiziente Methode zur stochastischen Rundung vorgestellt. Experimentell wird gezeigt, dass die Klassifizierungsgenauigkeit verbessert werden kann, ohne dass Multiplikationen erforderlich sind. Der dritte und vierte Teil der Arbeit befasst sich mit der logarithmischen Quantisierung vortrainierter CNNs für Bildklassifizierung und semantische Szenensegmentierung. Diese Quantisierung ermöglicht effiziente Implementierungen von Multiplikationen. Um die Genauigkeitsverschlechterung aufgrund der Quantisierung zu verringern, werden verschiedene Basen der logarithmischen Quantisierung untersucht. Die resultierende Genauigkeit logarithmisch quantisierter CNNs bei Computer-Vision-Aufgaben wird experimentell bestimmt. Die Ergebnisse zeigen, dass besonders moderne komplexe CNN-Architekturen anfällig für diese Quantisierung sind. Daher wird im letzten Teil der Arbeit eine logarithmisch-basierte Zahlendarstellung vorgestellt, mit der die Quantisierungsauflösung für Gewichte ausgewählt werden kann, wodurch sich die Genauigkeit komplexer CNN-Architekturen erhöht und gleichzeitig eine Implementierung ohne Multiplizierer ermöglicht wird.

Today, computer vision (CV) problems are solved with unprecedented accuracy using convolutional neural networks (CNNs), a biologically inspired machine learning concept. However, the large computational workload of CNNs prevents their ubiquitous deployment in embedded and resource constrained systems. For this reason, many approaches for dedicated CNN hardware accelerators have recently been presented in academia, as well as in industry. A key design parameter of such accelerator systems affecting requirements on memory, bandwidth, energy, and algorithmic accuracy is the supported number representation. In this regard, previous research has indicated that neural networks are resilient to fixed-point quantization of parameters and intermediate values. The research focus of this work lies on both the design and implementation of novel number representations and the extension of corresponding quantization methods for neural networks. In particular, this thesis proposes novel concepts for avoiding hardware multipliers to increase energy and area efficiency of accelerator systems. In the first part of the thesis, previous fixed-point quantization methods are reviewed and a self-supervised extension is proposed which specifically enhances the quantization results on pre-trained neural networks. This novel method is the basis for further quantization procedures in the remainder of the thesis. In the second part, CNNs trained on small-scale classification tasks with binary or ternary valued parameters are evaluated. Furthermore, a hardware efficient method for stochastic rounding is introduced, and it is experimentally shown to enhance classification performance while avoiding the need for multiplications. The third and fourth part of the thesis are devoted to the logarithmic quantization of pre-trained CNNs for large-scale image classification and semantic scene segmentation. Logarithmic quantization allows bit-shift-based implementations of multiplications and therefore omits large multipliers in hardware. To mitigate accuracy degradation due to quantization, different log-bases are deployed and implications on hardware implementations are discussed. The resulting accuracy of logarithmically quantized CNNs on CV tasks is experimentally determined. The results reveal that particularly modern complex CNN architectures are prone to few-bit quantization. Therefore, the last part of the thesis presents a logarithmic-based number representation which allows to select the quantization resolution for weights, thereby increasing the accuracy of complex CNN architectures while allowing multiplierless processing.

OpenAccess:
Download fulltext PDF
(additional files)

Dokumenttyp
Dissertation / PhD Thesis

Format
online

Sprache
English

Externe Identnummern
HBZ: HT020379842

Interne Identnummern
RWTH-2020-01952
Datensatz-ID: 782557

Beteiligte Länder
Germany

 GO


OpenAccess

QR Code for this record

The record appears in these collections:
Document types > Theses > Ph.D. Theses
Faculty of Electrical Engineering and Information Technology (Fac.6)
Publication server / Open Access
Public records
Publications database
611810

 Record created 2020-02-09, last modified 2023-04-08


OpenAccess:
Download fulltext PDF
(additional files)
Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)