Machine learning prediction and statistical analysis of redox modifications in proteins

  • Reactive oxygen species are a class of naturally occurring, highly reactive molecules that change the structure and function of macromolecules. This can often lead to irreversible intracellular damage. Conversely, they can also cause reversible changes through post-translational modification of proteins which are utilized in the cell for signaling. Most of these modifications occur on specific cysteines. Which structural and physicochemical features contribute to the sensitivity of cysteines to redox modification is currently unclear. Here, I investigated the in uence of protein structural and sequence features on the modifiability of proteins and specific cysteines therein using statistical and machine learning methods. I found several strong structural predictors for redox modification, such as a higher accessibility to the cytosol and a high number of positively charged amino acids in the close vicinity. I detected a high frequency of other post-translational modifications, such as phosphorylation and ubiquitination, near modified cysteines. Distribution of secondary structure elements appears to play a major role in the modifiability of proteins. Utilizing these features, I created models to predict the presence of redox modifiable cysteines in proteins, including human mitochondrial complex I, NKG2E natural killer cell receptors and proximal tubule cell proteins, and compared some of these predictions to earlier experimental results.
  • Reaktive Sauerstoffspezies sind eine Klasse natürlich vorkommender, hochreaktiver Moleküle, die die Struktur und Funktion von Makromolekülen verändern. Dies kann oft zu irreversiblen intrazellulären Schäden führen. Gleichzeitig können sie auch reversible Veränderungen durch posttranslationale Modifikation von Proteinen bewirken, die in der Zelle zur Signalübertragung genutzt werden. Die meisten dieser Modifikationen treten an spezifischen Cysteinen auf. Welche strukturellen und physikalisch-chemischen Eigenschaften zur Sensitivität von Cysteinen gegenüber Redoxmodifikationen beitragen, ist derzeit unklar. Hier habe ich den Einfluss von Proteinstruktur- und Sequenzmerkmalen auf die Modifizierbarkeit von Proteinen und den darin enthaltenen spezifischen Cysteinen mit statistischen und maschinellen Lernmethoden untersucht. Ich fand mehrere starke strukturelle Prädiktoren für Redoxmodifikationen, wie zum Beispiel eine höhere Zugänglichkeit zum Cytosol und eine hohe Anzahl von positiv geladenen Aminosäuren in unmittelbarer Nähe. Ich stellte eine hohe Häufigkeit anderer posttranslationaler Modifikationen wie Phosphorylierung und Ubiquitinierung in der Nähe von modifizierten Cysteinen fest. Die Verteilung von Sekundärstrukturelementen scheint eine wichtige Rolle bei der Modifizierbarkeit von Proteinen zu spielen. Unter Nutzung dieser Eigenschaften erstellte ich Modelle zur Vorhersage des Vorhandenseins von redoxmodifizierbaren Cysteinen in Proteinen, einschließlich des menschlichen mitochondrialen Komplexes I, der natürlichen NKG2E-Killerzellrezeptoren und der proximalen Tubuluszellproteine, und verglich einige dieser Vorhersagen mit früheren experimentellen Ergebnissen.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Marcus D. KeßlerGND
URN:urn:nbn:de:hebis:30:3-644677
DOI:https://doi.org/10.21248/gups.64467
Place of publication:Frankfurt am Main
Referee:Ina KochORCiD
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2022/09/06
Year of first Publication:2021
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2022/04/26
Release Date:2022/09/19
Page Number:139
HeBIS-PPN:49950092X
Institutes:Informatik und Mathematik
Dewey Decimal Classification:0 Informatik, Informationswissenschaft, allgemeine Werke / 00 Informatik, Wissen, Systeme / 004 Datenverarbeitung; Informatik
5 Naturwissenschaften und Mathematik / 57 Biowissenschaften; Biologie / 570 Biowissenschaften; Biologie
Sammlungen:Universitätspublikationen
Licence (German):License LogoDeutsches Urheberrecht