Domänen-Architektur von langen Signalpeptiden - in silico und in vitro -

Domain architecture of long signal peptide - in silico and in vitro -

  • Ziel der Arbeit war die Analyse von langen eukaryotischen Signalpeptiden, mit einer Länge von mindestens 40 Aminosäuren, und ihre Diskriminierung zu kurzen SP. Signalpeptide sind notwendig, um die im Cytosol translatierten Proteine zum Ort ihrer Funktion zu dirigieren. Sie spielen dadurch eine fundamentale Rolle bei der Entwicklung von Zellen. Signalpeptide weisen keine Sequenzhomologie, aber einen typischen, in drei Regionen gegliederten Aufbau (n-, h-, c-Region) auf. In den letzten Jahren wurden zunehmend Beispiele von Signalpeptiden gefunden, die neben dem Targeting zum endoplasmatischen Retikulum weitere Post-Targeting-Funktionen aufweisen. Auffällig ist hier die besondere Länge der Signalpeptide. Für die Analyse dieser langen Signalpeptide standen bis jetzt keine gezielt entwickelten Vorhersageprogramme zur Verfügung. Im Rahmen dieser Arbeit wurde diese Gruppe langer Signalpeptide untersucht und ein Modell zu deren interner Organisation entwickelt. Das entwickelte „NtraC“-Modell erweitert etablierte sequenzbasierte Ansätze für kurze SP um eine Sekundärstruktur-motivierte Perspektive für lange Sinalpeptide. Zuerst wird dabei ein Übergangsbereich (transition area, N„tra“C), der potentiell β-Turn bildende Aminosäuren enthält, identifiziert. Dieser dient im Modell zur Zerlegung des SP in zwei hinsichtlich ihrer Funktion unabhängige Domänen: eine N-terminale N-Domäne (‚N’traC) und eine C-terminale C-Domäne (Ntra‚C’). Diese mit bekannten Vorhersageprogrammen nicht identifizierbaren „kryptischen“ Domänen innerhalb der Signalpeptid-Sequenz können unterschiedliche Targeting-Kapazitäten aufweisen und entsprechen für sich genommen eigenständigen Protein-Targeting-Signalen. Im Fall einer ER-Targeting Kapazität z.B. weist eine Domäne für sich genommen eine n-, h-, und c-Region auf. 63% aller Vertebrata-Signalpeptide entsprechen der in dieser Arbeit vorgeschlagenen NtraC-Organisation. Eine basierend auf dem NtraC-Modell vorgeschlagene Architektur für die langen Signalpeptide von shrew-1 (43 Aminosäuren), DCBD2 (66 Aminosäuren) und RGMA (47 Aminosäuren) wurde vom Autor selbst in vitro überprüft. Für alle drei Proteine wurden eine N-Domäne mit mitochondrialer Targeting-Funktion und eine C-Domäne mit Signalpeptid-Funktion vorhergesagt. Die langen Signalpeptide der Proteine wurden bisher als reine ER-Targeting-Signale betrachtet. Die vorliegende Studie zeigt jedoch, dass in diesen langen Signalpeptiden multiple Targetingsignale kodiert sind. Die ER-Targeting-Kapazität der C-Domänen wurde durch SEAP-Assays überprüft, die mTP-Funktion der N-Domäne durch biochemische Aufreinigung von Mitochondrien. Die in silico-Vorhersagen konnten in vollem Umfang für alle drei Proteine in vitro bestätigt werden. Eine Untersuchung der semantischen Wolke aller Proteine mit NtraC-organisiertem Signalpeptid zeigte, dass eine NtraC-Organisation in mehr als 50% der Fälle im Zusammenhang mit Typ-I Transmembranproteinen auftritt. Auch die Proteine der hier experimentell untersuchten Signalpeptide von shrew-1, DCBD2, RGMA sind Typ-I Transmembranproteine. Des Weiteren weisen 15% aller langen Vertebrata-Signalpeptide eine Domänen-Kombination analog zu shrew-1, DCBD2 und RGMA auf. Der gefundene analoge Aufbau der langen Signalpeptide könnte somit funktionelle Gruppen von Proteinen zusammenführen, die bisher anderweitig nicht gruppiert werden konnten. Es konnte weiterhin gezeigt werden, dass bakterielle Autotransporter Gram-negativer Bakterien in Variation ebenfalls eine NtraC-Organisation in ihren Signalpeptiden aufweisen. Gleiches konnte für Gruppen langer viraler Signalpeptide gezeigt werden. Das NtraC-Modell ist somit nicht auf Vertebrata-Signalpeptide beschränkt. In der vorliegenden Arbeit wurde ein Modell zur Domänen-Architektur langer Signalpeptide entwickelt und erfolgreich angewendet: das NtraC-Modell. Ein Vorhersage-Algorithmus zur in silico-Untersuchung langer Signalpeptide wurde implementiert und in einer webbasierten Benutzeroberfläche öffentlich zugänglich gemacht. Das Modell trifft auf 63% der annotierten langen Vertebrata-Signalpeptide zu. Des Weiteren wurden, basierend auf dem NtraC-Modell, für die langen Signalpeptide von drei Proteinen (shrew-1, DCBD2, RGMA) in vitro-Versuche durchgeführt. Die erhaltenen in vitro-Ergebnisse unterstützen klar die These, dass lange Signalpeptide eine aus definierten Domänen bestehende Organisation aufweisen können.
  • The work focuses on the analysis of long eukaryotic signal peptides with more than 40 residues and their discrimination towards short signal peptides. Signal peptides are required to direct newly synthesized proteins from the cytosol to their place of function. Signal peptides therefore play a fundamental role for the development of cells. They share no sequence homology but exhibit a typical tripartite configuration (n, h, c region). During the past years multiple examples of signal peptides were discovered which had additional post-targeting functions besides the targeting to the endoplasmic reticulum. These sequences often had an increased length. Until now no specialized prediction tools for long signal peptides existed. Within this work long signal peptides were analyzed and a model regarding their internal architecture was developed. This “NtraC” model enhances established sequence based approaches for short signal peptides by introducing secondary structure aspects for long signal peptides. The first step is to identify a transition area (N”tra”C) which contains a potential β-turn. The β-turn is used for the subdivision of the long signal peptide into two functional independent domains: an N-terminal N-region (‚N’traC) and a C-terminal C-region (Ntra‚C’). These cryptic domains which are otherwise undetectable by known prediction tools can contain different targeting signals and do represent fully functional protein targeting signals on their own. In the case of ER targeting the domains also possess an n, h and c-region. 63% of all annotated vertebrata signal peptides with more than 40 residues are in accordance with the NtraC model. 47% of these signal peptides possess an N-domain with unknown function and a C-domain predicted to act as signal peptide. Based on the model the author proposed a partition of the long signal peptides of shrew-1 (43 residues), DCBD2 (66 residues) and RGMA (47 residues) and tested them in vitro. The N-domain of all three proteins was predicted to be a mitochondrial transit peptide and the c-domain to be a signal peptide. Until now all these signal peptides were regarded only as ER targeting signals. The presented work confirms although that inside these long signal peptides are multiple targeting functions encoded. The ER targeting capacity was confirmed by SEAP assays and the mitochondrial targeting capacity by biochemical purification of mitochondria. The in silico predictions were fully confirmed for all three signal peptides in vitro. A further investigation regarding the semantic cloud of all proteins predicted to contain an NtraC organized signal peptide revealed that over 50% of these proteins are typ I transmembrane proteins. This is also the case for the three proteins of this study shrew-1, DCBD2 and RGMA. Furthermore there is evidence for the long signal peptides of autotransporter of gram negative bacteria to possess a variation of the NtraC model. Similar evidence exists for the long signal peptides of viruses. The NtraC model is therefore not limited to vertebrata signal peptides. Within this study a model for the domain architecture of long signal peptides was developed and successfully applied: the NtraC model. A prediction algorithm for the in silico analysis of long signal peptides was implemented and is public accessible through a webinterace. The model is valid for 63% of the annotated long vertebrata signal peptides. Based on the NtraC model in vitro experiments were performed. The in vitro results clearly support the assumption that long signal peptides can exhibit a defined domain architecture.

Download full text files

Export metadata

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Jan Alexander HißORCiDGND
URN:urn:nbn:de:hebis:30-61471
Referee:Gisbert SchneiderORCiDGND
Document Type:Doctoral Thesis
Language:German
Date of Publication (online):2009/01/28
Year of first Publication:2008
Publishing Institution:Universitätsbibliothek Johann Christian Senckenberg
Granting Institution:Johann Wolfgang Goethe-Universität
Date of final exam:2008/12/18
Release Date:2009/01/28
Tag:Post-Targeting Funktionen; lange Signalpeptide
bioinformatic; long signal peptide; protein sorting
GND Keyword:Bioinformatik; Molekulare Bioinformatik; Protein-Sortierung; Signalpeptide; In silico-Methode; Zellkultur
HeBIS-PPN:208568565
Institutes:Biowissenschaften / Biowissenschaften
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 57 Biowissenschaften; Biologie / 570 Biowissenschaften; Biologie
Sammlungen:Sammlung Biologie / Biologische Hochschulschriften (Goethe-Universität)
Licence (German):License LogoDeutsches Urheberrecht