From tomograms to molecular structure : image processing in cryo-electron tomography

  • Cryo-electron tomography (CET) is a unique technique to visualize biological objects under near-to-native conditions at near-atomic resolution. CET provides three-dimensional (3D) snapshots of the cellular proteome, in which the spatial relations between macromolecular complexes in their near native cellular context can be explored. Due to the limitation of the electron dose applicable on biological samples, the achievable resolution of a tomogram is restricted to a few nanometers, higher resolution can be achieved by averaging of structures occurring in multiples. For this purpose, computational techniques such as template matching, sub-tomogram averaging and classification are essential for a meaningful processing of CET data. This thesis introduces the techniques of template matching and sub-tomogram averaging and their applications on real biological data sets. Subsequently, the problem of reference bias, which restricts the applicability of those techniques, is addressed. Two methods that estimate the reference bias in Fourier and real space are demonstrated. The real space method, which we have named the “M-free” score, provides a reliable estimation of the reference bias, which gives access to the reliability of the template matching or sub-tomogram averaging process. Thus, the “M-free” score makes those approaches more applicable to structural biology. Furthermore, a classification algorithm based on Neural Networks (NN) called “KerDenSOM3D” is introduced, which is implemented in 3D and compensates for the missing-wedge. This approach helps extracting different structural states of macromolecular complexes or increasing the class purity of data sets by eliminating outliers. A comprehensive comparison with other classification methods shows superior performance of KerDenSOM3D.
  • Kryoelektronentomographie (engl. Cryo-Electron Tomography, Abk. CET) ist die einzige Technik, die es erlaubt biologische Objekte in ihrem natürlichen Zustand, quasi atomar aufzulösen. Die biologischen Objekte werden vor dem Prozess kryofixiert und während des gesamten Vorgangs unterhalb von Temperaturen unter -135°C gehalten. Im Vergleich zur chemischen Fixierung entstehen dadurch weniger Fixationsartefakte und der natürliche Zustand der Probe wird für die Aufnahme erhalten. CET liefert drei-dimensionale (3D) Abbildungen subzellulärer Strukturen, womit die räumlichen Beziehungen von Makromolekülen untersucht werden können. Aufgrund der beschränkten Elektronenverträglichkeit biologischer Proben muss die kumulative Dosis von Elektronen während des gesamten Tomographievorgangs unterhalb einer proben-abhängigen Grenze liegen. Die Bildgebung mit niedriger Dosis hat Projektionsbilder mit einem schlechten Signal-Rausch-Verhältnis zur Folge. Das beschränkt die erreichbare Auflösung auf ca. 5 Nanometer. Außerdem haben die Tomogramme aufgrund der Geometrie des Probenhalters einen leeren Bereich in Fourierram, der „Mising-Wedge“ genannt wird. Um eine höhere und isotrope Auflösung zu erreichen, werden mehrfach vorkommende biologische Strukturen im Tomogramm ausgesucht, ausgerichtet und gemittelt. Dafür kommen automatische Berechnungsmethoden wie z.B. „Template Matching", „Sub-Tomogram Averaging" und Klassifizierungen zum Einsatz. Durch eine erfolgreiche Mittelung wird das Signal-Rausch-Verhältnis erhöht, womit die Auflösung verbessert wird. Durch Mittellung von zahlreichen Sub-Tomogrammen unterschiedlicher Orientierungen kann der „Missing-Wedge“ Effekt kompensiert werden, wodurch die Auflösung isotrop wird. Mit der Weiterentwicklung der CET werden auch Template Matching und Sub-Tomogram Averaging Techniken in der Strukturbiologie immer häufiger eingesetzt. Dadurch fällt das Augenmerk zunehmend auf den Referenzbias, welcher durch referenzbasierte Techniken eingebracht wird, und welcher unsichere und falsche Detektion und Ausrichtung von biologischen Makromolekülen verursacht. Zur Einschätzung vom Bias wurde eine neuartige Methode mit dem Namen „M-free“ entwickelt. Diese Methode basiert auf einer Analyse in Realraum und kann für Template Matching und Sub-Tomogram Averaging Techniken eingesetzt werden. Der Kern der Methode ist das Unterteilen der benutzten Maske im Realraum in einen Arbeits- und einen Testbereich (engl. Working area und Testing area). Es wird ausschließlich die Informationen in der Working area für die Ausrichtung verwendet. Die Testing area bleibt während des gesamten Vorgangs unberührt. Nach dem Vorgang werden Informationen aus beiden Bereichen für die Ermittlung der „M-free“ Werte benutzt. Es wurde mathematisch und experimentell bewiesen dass der „M-free“ eine präzise Einschätzung von Referenzbias gibt. Um die Verschiedenartigkeit von CET-Daten zu reduzieren, kommen Klassifikationsalgorithmen zum Einsatz. Die Klassifikation von tomographischen Daten ist aufgrund des niedrigen Signal-Rausch-Verhältnis und des Missing-Wedge Effekts eine herausfordernde Aufgabe. Selbst-organisierende neuronale Netze (engl. Self-Organizing Map, Abk. SOM) sind eine Art von neuronalen Netzwerken, welche hoch-dimensionale Daten auf ein zwei-dimensionales Gitter abbilden. SOMs sind Klassifikationsmethoden, die keine Vorkenntnisse von Daten erfordern. Sie fassen die originalen, verrauschten Daten in guten „Repräsentanten“ zusammen, dadurch wird die Aufgabe der Klassifikation erleichtert, allerdings ohne den Verlust der Datenstruktur. In dieser Dissertation wurde der originale SOM um eine Kompensation des „Missing-Wedge“ Effekts für 3D Daten erweitert. Diese fortgeschrittene Variante wird KerDenSOM3D genannt. Sie erlaubt eine sichere Konvergenz auf das globale Maximum und zeigt eine hervorragende Leistung in Experimenten mit synthetischen und realen Daten. In einem umfassenden Vergleich mit anderen Algorithmen sticht sie durch besondere Qualität hervor.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Zhou Yu
URN:urn:nbn:de:hebis:30:3-374529
Referee:Achilleas S. FrangakisORCiDGND, Jochen TrieschORCiD
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2015/05/13
Year of first Publication:2014
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2015/03/25
Release Date:2015/05/13
Page Number:140
Last Page:138
HeBIS-PPN:358912962
Institutes:Physik
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 53 Physik / 530 Physik
Sammlungen:Universitätspublikationen
Licence (German):License LogoDeutsches Urheberrecht