Power-Efficient Tightly-Coupled Processor Arrays for Digital Signal Processing

Kissler, Dmitrij

Power-Efficient Tightly-Coupled Processor Arrays for Digital Signal Processing

Files

2077_DmitrijKisslerDissertation.pdf (4.02 MB)

Language

en

Document Type

Doctoral Thesis

Issue Date

2012-02-10

Issue Year

2011

Authors

Kissler, Dmitrij

Abstract

In this thesis, we focus on highly area- and power-efficient, massively parallel, tightly- coupled embedded hardware architectures called Weakly Programmable Processor Arrays (WPPA) which are to be used as hardware accelerators in mobile embedded systems for sophisticated digital signal and image processing. Our research fully proved the need and the benefits of deploying such efficient accelerators in modern high-performance embedded systems: The prototype implementations of a WPPA in 90 nm CMOS ASIC technology with 4 and 24 processing elements revealed power efficiency values ranging from 98 MOPS/mW to 124 MOPS/mW and 0.064 mW/MHz to 0.66 mW/MHz. The corresponding chip area lies between 0.2 mm2 (4 PEs) and 2.2 mm2 (24 PEs). Compared to the current general-purpose multicore architectures, which are manufactured in much smaller process geometries, WPPAs have thus a 100 times smaller area footprint and up to 1000 times better power efficiency. The main contributions of this thesis lie in the following fields: Architectural research, power modeling, power optimization, as well as automatic design space exploration. Architectural Research A novel, highly parameterizable coarse-grained reconfigurable architecture called Weakly Programmable Processor Array was designed. It consists of several weakly programmable processing elements with a VLIW (very long instruction word) architecture which are connected with the help of dynamically reconfigurable interconnect modules. One of the distinguishing properties of a WPPA is that it is an architectural template rather than a fixed design, like many other well-known coarse- grained reconfigurable architectures. The high degree of parameterization enables a flexible adaptation of hardware resources to the prospective set of applications as well as an automatic design space exploration. Power Modeling With the help of a table-based, probabilistic macro-modeling technique with non-uniform parameter sampling, implemented by means of a relational database we show that the achievable power estimation speeds for large WPPA arrays consisting of several hundreds of processing elements can be reduced to the minutes range within 10% estimation error compared to a state-of-the-art commercial gate-level post-layout power estimator. Power Optimization First, the important aspect of power-efficient dynamic reconfiguration control techniques in coarse-grained reconfigurable architectures was addressed: Proper clock domain partitioning with custom clock gating combined with automatic clock gating resulted in a 35% total power reduction. This is more than a threefold as compared to the single clock gating techniques applied separately. The corresponding case study application with 0.064 mW/MHz and 124 MOPS/mW power efficiency outperforms the major coarse-grained and general purpose embedded processor architectures by a factor of 1.7 to 28. The active and standby leakage power consumption could also be significantly reduced due to state-of-the-art, Common Power Format based design flow and a novel, highly scalable power control network for designs with hundreds of power domains. Automatic Design Space Exploration An exploration framework for WPPA based on state-of-the-art multi-objective evolutionary algorithms was implemented which allows us to perform a highly accurate and expeditious automatic exploration and evaluation of any possible WPPA instance in terms of area, performance and power on a high level of abstraction. The presented framework constitutes the means to automatically determine the absolute upper and lower limits of the objectives for a given parameter range which would be impossible to achieve otherwise. Substantial acceleration of the automatic exploration procedure is achieved due to deployment of a novel, relational database-based macro-modeling methodology and modern multi-objective evolutionary algorithms. Finally, the automatic exploration of combined deployment of several different algorithms on a single WPPA instance programmed by means of run-time reconfiguration was investigated.

Abstract

Der Schwerpunkt der vorliegenden Dissertation liegt auf der neuen Architekturklasse der energie- und flächeneffizienten, schwachprogrammierbaren, eng gekoppelten Prozessorfelder (eng. Weakly Programmable Processor Arrays, WPPAs). Sie verbinden die Vorteile anwendungsspezifischer integrierter Schaltungen (Chipflächenbedarf, Energieverbrauch und Rechenleistung) mit der Flexibilität gängiger Multicore-SoCs, siehe Abb. 8.1. Diese Flexibilität wird durch die Programmierbarkeit der einzelnen Prozessorelemente und der Verbindungstopologie des Prozessorfeldes erreicht. Die Programmierbarkeit ist anwendungsspezifisch und damit eingeschränkt. Die Ergebnisse dieser Dissertation zeigen, dass es für die oben erwähnten Anwendungsfelder mit Hilfe der vorgeschlagenen Methoden möglich ist, Systeme zu entwerfen, die 1/10 bis 1/100 der Chipfläche bei 100- bis 300-fachen Steigerung der Leistungseffizienz besitzen, bei einer Rechenleistung vergleichbar mit der von herkömmlichenMulticore-SoCs. Die wesentlichen Beiträge der vorliegenden Arbeit liegen in den folgenden vier Forschungsgebieten: (1) Erforschung von Architekturen, (2) Effiziente Modellierung des Leistungsverbrauchs auf einer hohen Abstraktionsebene, (3) Optimierung des Energie- und Leistungsverbrauchs, sowie (4)Effiziente Parameterraum-Exploration. Erforschung von Architekturen Die WPPA-Architekturen werden aus mehreren schwachprogrammierbaren Prozessorelementen (WPPE)gebildet, die zu Prozessorfeldern verbunden sind. Jedes einzelne Prozessorelement eines WPPAs besitzt eine VLIW-Architektur (Very Long Instruction Word). Sie werden als schwachprogrammierbar bezeichnet, weil die Größe des Instruktionsspeichers beschränkt ist und der Kontrollaufwand für Algorithmen einer bestimmten Anwendungsklasse so gering wie möglich gehalten wird. Es werden zum Beispiel keine Interrupts und Exceptions unterstützt. Der Instruktionsspeicher enthält jeweils ein VLIW Programm. Jedes WPPE enthält Parameter, wie zum Beispiel die Anzahl und Typ der funktionalen Einheiten (Addierer/Subtrahierer, Multiplizierer, Schiebeeinheiten, Logikeinheiten) und kann zur Synthesezeit parametrisiert werden. Das VHDL-Template kann durch spezielle funktionale Einheiten, beispielsweise MAC (Multiply-Accumulate) oder Barrel-Schifter, erweitert werden. Die Kommunikation zwischen den einzelnen Prozessorelementen spielt bei den parallelen Hardwarearchitekturen eine sehr wichtige Rolle. Flexible Verbindungsstrukturen können mit Hilfe des Konzeptes eines Interconnect Wrapper Moduls realisiert werden, das zu jeweils einem WPPE gehört. Effiziente Modellierung des Leistungsverbrauchs Um eine äußerst schnelle Abschätzung des Leistungs- und Flächenverbrauchs auf Architekturebene zu ermöglichen, wird eine probabilistische Makromodellierungsmethodik vorgeschlagen, die auf einer neuartigen Implementierung mit Hilfe einer relationalen Datenbank, sowie einer nicht-uniformen Parameter-Abtastung basiert. Damit können große Prozessorfelder mit Hunderten von Prozessorelementen innerhalb einiger Minuten bezüglich ihres Energie- und Leistungsverbrauchs charakterisiert werden. Der Abschätzungsfehler liegt dabei innerhalb von 10% verglichen mit modernen kommerziellen Analysewerkzeugen, die auf einer Gatternetzliste mit Plazierungs- und Verdrahtungsinformation arbeiten. Optimierung des Energie- und Leistungsverbrauchs Sowohl der dynamische, wie auch der statische Leistungsverbrauch werden mit Hilfe moderner Methoden, sowie architekturspezifischer Eigenschaften massiv reduziert. Die Anwendung einer hybriden Clock-Gating Technik führt zu einem Rückgang der dynamischen Leistungsaufnahme um bis zu 35%. Verglichen mit den herkömmlichen automatischen Clock-Gating Techniken ist es eine Steigerung um den Faktor drei. Die Beispiel-Implementierungen von WPPAs mit unterschiedlichen Größen von 2x2 und 3x8 in einer kommerziellen 90 nm CMOS Standardzellen-Technologie ergaben Leistungseffizienz-Werte von 0.064 mW/MHz und 124 MOPS/mW. Verglichen mit modernen grobgranularen und eingebetteten Mikroprozessor-Architekturen entspricht dies einer Steigerung der Leistungseffizienz um den Faktor 1.7 bis 28. Die Reduzierung der statischen Leistungsaufnahme während des Betriebs, wie auch der Standby-Zeit wird mit Hilfe der Power-Gating Technik und eines automatisierten Entwurfsflusses basierend auf dem Common Power Format erreicht. Um die Skalierbarkeit dieser Methode für künftige große Prozessorfelder mit Tausenden von Prozessorelementen sicherzustellen, wird ein neuartiges, effizientes Verbindungsnetzwerk mit asynchroner Steuerung vorgestellt. Effiziente Automatische Parameterraum-Exploration Ein bemerkenswertes Ergebnis dieser Arbeit ist ein innovatives Explorations-Framework, das mit Hilfe moderner multikriterieller evolutionärer Algorithmen eine genaue und schnelle automatische Parameterraum-Exploration bezüglich des Flächen- und Leistungs-Verbrauchs, sowie des Durchsatzes für beliebige WPPA-Instanzen ermöglicht. Dieses Framework stellt ein Mittel dar, die jeweiligen unteren und oberen Schranken der Zielfunktionen für einen gegebenen Parameterbereich automatisch zu bestimmen. Dies kann mit herkömmlichen Methodiken nicht erreicht werden. Anschließend wird eine Exploration von WPPA-Architekturen für mehrere unterschiedliche Algorithmen untersucht, die auf dem gleichen Prozessorfeld mit Hilfe von Rekonfiguration ausgeführt werden sollen. Es werden Methoden vorgestellt, die während der Exploration zu einer ausgeglichenen Hardware-Architektur führen, die für eine gegebene Algorithmen- Menge einen vernünftigen Kompromiss bezüglich der Zielgrößen darstellt.