Pangenome analysis of bacteria and its application in metagenomics

Bakterielle Pan-Genome und ihre Anwendungen in der Metagenomik

Please always quote using this URN: urn:nbn:de:bvb:20-opus-214996
  • The biosphere harbors a large quantity and diversity of microbial organisms that can thrive in all environments. Estimates of the total number of microbial species reach up to 1012, of which less than 15,000 have been characterized to date. It has been challenging to delineate phenotypically, evolutionary and ecologically meaningful lineages such as for example, species, subspecies and strains. Even within recognized species, gene content can vary considerably between sublineages (for example strains), a problem that can be addressed byThe biosphere harbors a large quantity and diversity of microbial organisms that can thrive in all environments. Estimates of the total number of microbial species reach up to 1012, of which less than 15,000 have been characterized to date. It has been challenging to delineate phenotypically, evolutionary and ecologically meaningful lineages such as for example, species, subspecies and strains. Even within recognized species, gene content can vary considerably between sublineages (for example strains), a problem that can be addressed by analyzing pangenomes, defined as the non-redundant set of genes within a phylogenetic clade, as evolutionary units. Species considered to be ecologically and evolutionary coherent units, however to date it is still not fully understood what are primary habitats and ecological niches of many prokaryotic species and how environmental preferences drive their genomic diversity. Majority of comparative genomics studies focused on a single prokaryotic species in context of clinical relevance and ecology. With accumulation of sequencing data due to genomics and metagenomics, it is now possible to investigate trends across many species, which will facilitate understanding of pangenome evolution, species and subspecies delineation. The major aims of this thesis were 1) to annotate habitat preferences of prokaryotic species and strains; 2) investigate to what extent these environmental preferences drive genomic diversity of prokaryotes and to what extent phylogenetic constraints limit this diversification; 3) explore natural nucleotide identity thresholds to delineate species in bacteria in metagenomics gene catalogs; 4) explore species delineation for applications in subspecies and strain delineation in metagenomics. The first part of the thesis describes methods to infer environmental preferences of microbial species. This data is a prerequisite for the analyses performed in the second part of the thesis which explores how the structure of bacterial pangenomes is predetermined by past evolutionary history and how is it linked to environmental preferences of the species. The main finding in this subchapter that habitat preferences explained up to 49% of the variance for pangenome structure, compared to 18% by phylogenetic inertia. In general, this trend indicates that phylogenetic inertia does not limit evolution of pangenome size and diversity, but that convergent evolution may overcome phylogenetic constraints. In this project we show that core genome size is associated with higher environmental ubiquity of species. It is likely this is due to the fact that species need to have more versatile genomes and most necessary genes need to be present in majority of genomes of that species to be highly prevalent. Taken together these findings may be useful for future predictive analyses of ecological niches in newly discovered species. The third part of the thesis explores data-driven, operational species boundaries. I show that homologous genes from the same species from different genomes tend to share at least 95% of nucleotide identity, while different species within the same genus have lower nucleotide identity. This is in line with other studies showing that genome-wide natural species boundary might be in range of 90-95% of nucleotide identity. Finally, the fourth part of the thesis discusses how challenges in species delineation are relevant for the identification of meaningful within-species groups, followed by a discussion on how advancements in species delineation can be applied for classification of within-species genomic diversity in the age of metagenomics.show moreshow less
  • Die Biosphäre beherbergt eine große Zahl verschiedener Mikroorganismen, die fast alle bekannten Lebensräume besiedeln können. Die Gesamtzahl mikrobieller Spezies liegt Schätzungen zu Folge bei bis zu 1012, von denen jedoch bis heute erst 15.000 beschrieben worden sind. Die Beschreibung von phänotypisch, evolutionsbiologisch und ökologisch kohärenten Spezies, Sub-Spezies oder Stämmen stellt Forscher vor konzeptionelle Herausforderungen. Selbst innerhalb anerkannter Spezies kann die Kombination einzelner Gene oft stark variieren. DieseDie Biosphäre beherbergt eine große Zahl verschiedener Mikroorganismen, die fast alle bekannten Lebensräume besiedeln können. Die Gesamtzahl mikrobieller Spezies liegt Schätzungen zu Folge bei bis zu 1012, von denen jedoch bis heute erst 15.000 beschrieben worden sind. Die Beschreibung von phänotypisch, evolutionsbiologisch und ökologisch kohärenten Spezies, Sub-Spezies oder Stämmen stellt Forscher vor konzeptionelle Herausforderungen. Selbst innerhalb anerkannter Spezies kann die Kombination einzelner Gene oft stark variieren. Diese Beobachtung ist die Grundlage der Analyse von Pan-Genomen. also der Konstellation originärer Gene innerhalb einer Abstammunsglinie, als evolutionsbiologische Einheiten. Spezies entsprechen prinzipiell ökologisch und evolutionär kohärenten Einheiten, jedoch sind die primären Habitate und ökologischen Nischen vieler prokaryotischer Spezies bis heute nur unzureichend beschrieben, insbesondere mit Blick auf den Einfluss ökologischer Präferenzen auf die Evolution von Genomen. Die Mehrheit vergleichender genomischer Studien untersucht einzelne prokaryotische Spezies mit Bezug auf deren klinische oder ökologische Relevanz. Aufgrund der wachsenden Verfügbarkeit genomischer Daten ist es nun jedoch möglich, vergleichende Studien über Speziesgrenzen hinweg durchzuführen, um allgemeine Prinzipien der Evolution von Pan-Genomen, Spezies und Sub-Spezies zu untersuchen. Die wesentlichen Ziele der vorliegenden Arbeit waren 1) die Annotation von Habitatpräferenzen prokaryotischer Spezies und Stämme; 2) die Quantifizierung des Einflusses von Umwelt und Evolutionsgeschichte (Phylogenie) auf die genomische Diversität von Prokaryoten; 3) die Bestimmung natürlicher Schwellenwerte der Genomsequenzähnlichkeit zwischen Spezies, auch anhand von Genkatalogen; 4) die Untersuchung der Abgrenzung zwischen Spezies, Sub-Spezies und Stämmen mithilfe metagenomischer Daten. Im ersten Teil der Arbeit werden Methoden zur Bestimmung ökologischer Präferenzen mikrobieller Spezies beschrieben. Die so gewonnenen Daten dienen in der Folge als Grundlage für die Quantifizierung von Umwelt- und evolutionsgeschichtlichen Einflüssen auf die Struktur und Evolution bakterieller Pan-Genome im zweiten Teil der Arbeit. Ein zentrales Ergebnis dieser Untersuchung war, dass bis zu 49% der strukturellen Varianz in Pan-Genomen durch Habitatpräferenzen erklärt werden kann, im Gegensatz zu lediglich 18% durch phylogenetische Trägheitseffekte. Dies zeigt, dass die Größe und Diversität von Pan-Genomen nicht phylogenetisch limitiert ist, insbesondere in Fällen von konvergenter Evolution. Große Kern-Genome sind ferner mit einer weiten ökologischen Verbreitung von Spezies assoziiert; eine mögliche Erklärung ist, dass weit verbreitete Spezies vielseitigere Genome mit mehr notwendigen Genen besitzen, die ein Überleben in vielfältigen Umgebungen ermöglichen. Die vorgelegte Arbeit kann weiterhin einen Beitrag zur Vorhersage ökologischer Profile neu beschriebener Spezies leisten. Im dritten Teil der Arbeit werden datenbezogene, operationelle Definition von Spezies-Grenzen untersucht. Es konnte gezeigt werden, dass Gene verschiedener Genome innerhalb derselben Spezies normalerweise mindestens 95% Ähnlichkeit der Nukleotidsequenz aufweisen, während die Ähnlichkeit zwischen Spezies desselben Genus geringer ausfällt. Dieser Wert liegt im Rahmen früherer Schätzungen. Der vierte Teil der Arbeit beschreibt abschließend die Herausforderungen bei der Bestimmung von evolutionären Linien innerhalb von Spezies und diskutiert anschließend, wie konzeptionelle Entwicklungen in dieser Frage für die Klassifizierung und Quantifizierung von Diversität anhand metagenomischer Daten genutzt werden kann.show moreshow less

Download full text files

Export metadata

Metadaten
Author: Oleksandr MaistrenkoORCiD
URN:urn:nbn:de:bvb:20-opus-214996
Document Type:Doctoral Thesis
Granting Institution:Universität Würzburg, Fakultät für Biologie
Faculties:Fakultät für Biologie / Theodor-Boveri-Institut für Biowissenschaften
Referee:Prof. Dr. Peer Bork, Prof. Dr. Thomas Dandekar, Prof. Dr. Christian Wegener
Date of final exam:2020/10/28
Language:English
Year of Completion:2021
DOI:https://doi.org/10.25972/OPUS-21499
Sonstige beteiligte Institutionen:European Molecular Biology Laboratory, Heidelberg, Germany
Dewey Decimal Classification:5 Naturwissenschaften und Mathematik / 57 Biowissenschaften; Biologie / 576 Genetik und Evolution
5 Naturwissenschaften und Mathematik / 57 Biowissenschaften; Biologie / 577 Ökologie
5 Naturwissenschaften und Mathematik / 57 Biowissenschaften; Biologie / 579 Mikroorganismen, Pilze, Algen
GND Keyword:Pangenom; phylogenetische Trägheit; Lebensraum; Stammvielfalt; mikrobielle Ökologie und Evolution
Tag:habitat; metagenomics; microbial ecology and evolution; pangenome; phylogenetic inertia; strain diversity
Release Date:2021/11/03
Licence (German):License LogoCC BY-SA: Creative-Commons-Lizenz: Namensnennung, Weitergabe unter gleichen Bedingungen 4.0 International