| Lizenz: Creative Commons Namensnennung 4.0 International (4MB) | |
Lizenz: Creative Commons Namensnennung 4.0 International ZIP-Archiv - Daten Daten zur Reproduktion, sowie R-Paket. (599MB) |
- URN zum Zitieren dieses Dokuments:
- urn:nbn:de:bvb:355-epub-414019
- DOI zum Zitieren dieses Dokuments:
- 10.5283/epub.41401
Dokumentenart: | Hochschulschrift der Universität Regensburg (Dissertation) | ||||
---|---|---|---|---|---|
Open Access Art: | Primärpublikation | ||||
Datum: | 31 Januar 2020 | ||||
Begutachter (Erstgutachter): | Prof. Dr. Rainer Spang | ||||
Tag der Prüfung: | 5 Dezember 2019 | ||||
Institutionen: | Medizin > Lehrstuhl für Medizinische Mikrobiologie und Hygiene Medizin > Institut für Funktionelle Genomik > Lehrstuhl für Statistische Bioinformatik (Prof. Spang) Informatik und Data Science > Lehrstuhl für Statistische Bioinformatik (Prof. Spang) | ||||
Verwandte URLs: |
| ||||
Stichwörter / Keywords: | gut microbiome standardization; spike-in bacteria; distribution based clustering; OTU curation; adaptive taxonomic units; ATU | ||||
Dewey-Dezimal-Klassifikation: | 000 Informatik, Informationswissenschaft, allgemeine Werke > 004 Informatik 500 Naturwissenschaften und Mathematik > 500 Naturwissenschaften 500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie | ||||
Status: | Veröffentlicht | ||||
Begutachtet: | Ja, diese Version wurde begutachtet | ||||
An der Universität Regensburg entstanden: | Ja | ||||
Dokumenten-ID: | 41401 |
Zusammenfassung (Englisch)
With the emergence of high throughput next-generation sequencing the importance of the human gut microbiota as regulators, modulators and maintainers of human health and disease became more and more imminent. Advances in sequencing in the last two decades enabled the analysis of the composition and dynamics of the gut microbiome in unprecedented resolution and complexity. Investigations of this ...
Zusammenfassung (Englisch)
With the emergence of high throughput next-generation sequencing the importance of the human gut microbiota as regulators, modulators and maintainers of human health and disease became more and more imminent. Advances in sequencing in the last two decades enabled the analysis of the composition and dynamics of the gut microbiome in unprecedented resolution and complexity. Investigations of this complex community by marker gene studies allowed assertions on presence, absence and ecological dynamics of gut bacteria. Several studies discovered strong relationships between the gut microbiota and human health. Some of these bacteria are shown to be essential for daily life processes like digestion, nutrition uptake, pathogen resistance and immune maturation. Likewise, disturbances of this close relationship, called dysbiosis, have been found to be associated with diseases like diabetes, obesity, colon cancer and inflammatory bowel disease. All this renders the gut microbiome as a highly relevant target of research in medical diagnostics and microbiome community analysis a valid hypothesis building tool.
Nevertheless, the vast amount of different methodologies and lack of broadly accepted standards to create and handle gut microbiome abundance data complicates reproducible or replicable findings across studies. Especially in settings, where samples diverge significantly in their total biomass or microbial load, the analysis of the microbiome is hampered. Several efforts to allow accurate inter sample comparisons have been undertaken, including the use of relative abundances or random feature sub-sampling (rarefaction). While these methodologies are the most frequently used, they are not fully capable to correct for these sample-wide differences. To increase comparability between samples the use of exogenous spike-in bacteria is proposed to correct for sample specific differences in microbial load. The methodology is tested on a dilution experiment with known differences between samples and successfully applied on a clinical microbiome data set. These experiments suggest that current analysis methods lack a pivotal angle on the data, that is comparability between samples differing in microbial load. Meanwhile, the proposed spike-in based calibration to microbial load (SCML) allows for accurate estimation of ratios of absolute endogenous bacteria abundances.
Furthermore, microbiome community analysis is heavily dependent on the resolution of the underlying read count data. While resolutions such as operational taxonomic units (OTUs) generally overestimate diversity and create highly redundant and sparse datasets, agglomerations to common taxonomy can obfuscate distinct read count patterns of possible sub-populations inside the given taxonomy. Even though the ladder agglomeration strategy might be valid for taxonomy with low phenotypical divergence, plenty taxonomic lineages in fact contain highly diverse sub-species. Thus, a more appropriate taxonomic unit would adapt its resolution for those densely populated branches, allowing for different count resolutions inside the same community. Here the concept of adaptive taxonomic units (ATUs) is introduced and applied on a perturbation experiment including mice receiving antibiotics. For this data set the different classical count resolutions (i.e. collapsed to order, family or genus etc.) produce highly contradictory results.
Meanwhile, adaptive taxonomic units (ATUs) derived by hierarchical affinity merging (HAM) adapt the granularity of taxonomy to the underlying sequencing data. Branches of bacterial phylogeny that are highly covered in the data set receive a higher resolution than those that were infrequently observed. The algorithm hereby merges operational taxonomic units (OTUs) guided not only by sequence dissimilarity, but also by count distribution and OTU size. Due to the agglomeration the number of features is reduced significantly, lowering the complexity of the data, while preserving distributional patterns only observable at OTU level. Consequently, the sparsity of the count data is reduced significantly such that every ATU accumulates reasonable count number and can thus be reliably analysed. The algorithm is provided in the form of the R-Package dOTUClust.
Übersetzung der Zusammenfassung (Deutsch)
Mit dem Aufkommen von next-generation sequencing wurde die Rolle der Bakterien im Darm als Regulatoren, Modulatoren und Versorger der menschlichen Gesundheit mehr und mehr deutlich. Fortschritte in der Sequenzierungstechnologie in den letzten zwei Dekaden erlaubte die Analyse der Zusammensetzung und der Dynamik des Darm Mikrobioms in nie dagewesener Auflösung und Komplexität. Untersuchungen ...
Übersetzung der Zusammenfassung (Deutsch)
Mit dem Aufkommen von next-generation sequencing wurde die Rolle der Bakterien im Darm als Regulatoren, Modulatoren und Versorger der menschlichen Gesundheit mehr und mehr deutlich. Fortschritte in der Sequenzierungstechnologie in den letzten zwei Dekaden erlaubte die Analyse der Zusammensetzung und der Dynamik des Darm Mikrobioms in nie dagewesener Auflösung und Komplexität. Untersuchungen dieser komplexen Gemeinschaft durch Markergen-Studien ermöglichten Aussagen über das Vorhandensein, Fehlen und über die ökologische Dynamik von Darmbakterien. Mehrere Studien stellten einen engen Zusammenhang zwischen der Darmflore und der menschlichen Gesundheit fest. Es hat sich gezeigt, dass einige dieser Bakterien für die alltäglichen Prozesse wie Verdauung, Nahrungsaufnahme, Resistenz gegen Krankheitserreger und Reifung des Immunsystems essentiell sind. Ebenso wurde festgestellt, dass Störungen dieser engen Beziehung, die als Dysbiose bezeichnet werden, mit Krankheiten wie Diabetes, Fettleibigkeit, Darmkrebs und entzündlichen Darmerkrankungen verbunden sind. All dies macht das Darmmikrobiom zu einem hochrelevanten Forschungsziel für die medizinische Diagnostik und die Analyse der mikrobiellen Gemeinschaft zu einem wertvollen Werkzeug zum Aufstellen von Hypothesen.
Nichtsdestotrotz erschweren die Vielzahl unterschiedlicher Methoden und das Fehlen allgemein anerkannter Standards für die Erstellung und den Umgang mit Daten zur Abundanz von Darmbakterien in vielen Studien die Erstellung reproduzierbarer Ergebnisse. Insbesondere in Situationen, in denen die Proben hinsichtlich ihrer Gesamtbiomasse oder mikrobiellen Belastung erheblich voneinander abweichen, wird die Analyse des Mikrobioms erschwert. Es wurden verschiedene Anstrengungen unternommen, um genaue Vergleiche zwischen den Stichproben zu ermöglichen, einschließlich der Verwendung relativer Häufigkeiten oder der Unterprobe von Zufallsmerkmalen (Rarefaction). Obwohl diese Methoden am häufigsten verwendet werden, können sie diese Unterschiede in der Stichprobe nicht vollständig ausgleichen. Um die Vergleichbarkeit zwischen den Proben zu verbessern, wird hier vorgeschlagen, exogene Spike-In-Bakterien zu verwenden, um probenspezifische Unterschiede in der mikrobiellen Belastung zu korrigieren. Die Methode wird in einem Verdünnungsexperiment mit bekannten Unterschieden zwischen den Proben getestet und erfolgreich auf einen klinischen Mikrobiomdatensatz angewendet. Diese Experimente legen nahe, dass den gegenwärtigen Analysemethoden ein zentraler Blickwinkel auf den Daten fehlt, das heißt die Vergleichbarkeit zwischen Proben, welche sich in ihrer mikrobiellen Belastung unterscheiden. Die vorgeschlagene spike-in-basierte Kalibrierung auf die mikrobielle Belastung (SCML, englisch „spike-in based calibration to microbial load“) eine genaue Schätzung von Verhältnissen absoluter Häufigkeiten endogener Bakterien.
Darüber hinaus hängt die Analyse der Mikrobiomgemeinschaft stark von der Auflösung der zugrunde liegenden Read-Häufigkeiten. Während Auflösungen wie operative taxonomische Einheiten (OTUs, englisch: „operational taxonomic units“) im Allgemeinen Häufigkeiten überschätzen und hochredundante und spärliche Datensätze erzeugen, kann das Zusammenfassen der Counts basierend auf gemeinsamer Taxonomie unterschiedliche Häufigkeitsmuster möglicher Teilpopulationen innerhalb der gegebenen Taxonomie verschleiern. Auch wenn die erste Agglomerations-Strategie nach Taxonomie bei geringer phänotypischer Divergenz valide ist, enthalten viele taxonomische Linien tatsächlich sehr unterschiedliche Unterarten. Somit würde eine angemessenere taxonomische Einheit ihre Auflösung für solch dicht besiedelten Zweige anpassen und unterschiedliche Auflösungen innerhalb derselben Gemeinschaft ermöglichen. Hier wird das Konzept der adaptiven taxonomischen Einheiten (ATUs, englisch: „adaptive taxonomic units“) vorgestellt und auf ein Interventionsexperiment angewendet, bei dem Mäuse Antibiotika erhielten.
Für diesen Datensatz führen die verschiedenen klassischen Count-Auflösungen (z.B. nach Ordnung, Familie oder Gattung usw. zusammengefasst) zu widersprüchlichen Ergebnissen. Hingegen passen adaptive taxonomische Einheiten (ATUs), die durch hierarchische Affinitätszusammenführung (HAM, englisch: „hierarchical affinity merging“) abgeleitet wurden, die Auflösung der Taxonomie an die zugrunde liegenden Sequenzierungsdaten an. Zweige der bakteriellen Phylogenie, die in dem Datensatz stark abgedeckt sind, erhalten eine höhere Auflösung als diejenigen, die selten beobachtet wurden. Der Algorithmus (HAM) führt dabei operative taxonomische Einheiten (OTUs) zusammen und orientiert sich dabei nicht nur an Sequenzunterschiedlichkeit, sondern auch an Count-Verteilung und der OTU-Größe. Aufgrund der Agglomeration wird die Anzahl der Features erheblich reduziert, wodurch die Komplexität der Daten verringert wird. Gleichzeitig bleiben Verteilungsmuster erhalten bleiben, die sonst nur auf OTU-Ebene zu beobachten sind. Infolgedessen wird die Spärlichkeit der Count-Daten erheblich verringert, so dass jede ATU eine angemessene Anzahl Reads ansammelt und somit zuverlässig analysiert werden kann. Der Algorithmus wird in Form des R-Paketes dOTUClust zur Verfügung gestellt.
Metadaten zuletzt geändert: 25 Nov 2020 17:02