Dokument: Enabling Versatile And Comprehensive Analysis Of Genomic Variant Data

Titel:Enabling Versatile And Comprehensive Analysis Of Genomic Variant Data
URL für Lesezeichen:https://docserv.uni-duesseldorf.de/servlets/DocumentServlet?id=50141
URN (NBN):urn:nbn:de:hbz:061-20190716-090253-7
Kollektion:Dissertationen
Sprache:Englisch
Dokumententyp:Wissenschaftliche Abschlussarbeiten » Dissertation
Medientyp:Text
Autor: Ginzel, Sebastian [Autor]
Dateien:
[Dateien anzeigen]Adobe PDF, Unbekannter Dateityp
[Details]15,60 MB in 2 Dateien
[ZIP-Datei erzeugen]
Dateien vom 06.07.2019 / geändert 15.07.2019
Beitragende:Prof. Dr. Wanke, Egon [Gutachter]
Univ. Prof. Dr. med Arndt Borkhardt [Gutachter]
Prof. Dr. Ralf Thiele [Gutachter]
Dewey Dezimal-Klassifikation:000 Informatik, Informationswissenschaft, allgemeine Werke » 004 Datenverarbeitung; Informatik
Beschreibungen:Die Next Generation Sequenzierung (NGS) identifiziert hunderttausende Mutationen pro Individuum und eröffnet der Forschung und medizinischen Behandlung neue Erkenntnisse.
Dies führte zur verbesserten Charakterisierung von Tumoren, der Entdeckung neuer krankheitsverursachender Mechanismen bei genetischen Erkrankungen sowie der Identifizierung neuer Behandlungsmöglichkeiten.
Sequenzierungexperimente sind multidisziplinäre Projekte, die die Fachkenntnisse unterschiedlicher Experten benötigen, um Daten zu generieren und zu verarbeiten.
Die Ergebnisse werden von Genomikern (z.B. Molekularbiologen und Mediziner) interpretiert, um signifikante Varianten in einem Heuhaufen von Mutationen zu finden.

Die anfänglich große Anzahl der Varianten wird durch die Ausführung angepasster Annotations- und Filterprozesse reduziert.
Dies erfordert den Aufbau komplexer Software-Werkzeugketten und die Integration unterschiedlicher Datenquellen.
Darüber hinaus bedeuten steigende Studiengrößen einen zunehmend höheren Verwaltungsaufwand der Datensätzen in einer Multi-User und -Institutions"-umgebung.
Die Unterstützung der Datenanalyse in dieser Phase ist von grundlegender Bedeutung, da das große Datenvolumen für Benutzer mit eingeschränkter Computerkenntnis nicht oder unzureichend handhabar ist.
Wenn die Ursache für eine Krankheit oder einen Phänotyp unbekannt ist, ist es üblich, dass über mehrere Iterationen hinweg Filterstrategien und Problemspezifizierungen verfeinert werden.
Ständige Rückmeldung und Kommunikation ist notwendig, wenn Parameter angepasst werden müssen oder sich die Datengrundlage ändert (z.B. wenn weitere Proben hinzugefügt werden).
Die Variantenfilterung und -interpretation werden so zeitaufwendig und erschweren eine dynamische und explorative Datenanalyse durch Experten.

In dieser Arbeit stelle ich SNuPy vor, ein interaktives Werkzeug, das Forschern mit eingeschränkten Computerkenntnisse die Möglichkeit gibt, ihre eigenen Variantendatensätze zu analysieren.
SNuPy erlaubt Genomik-Experten mit Qualitätskontrollen die Korrektheit von Datensätzen zu überprüfen und diese zu verwalten.
Kleine Varianten (SNV/Indel) sowie Kopienzahl-Varianten aus hunderten Proben können über eine benutzerfreundliche Oberfläche parallel gefiltert werden.
Dazu ist es möglich parametrisierte und aus multiplen Kriterien bestehende Abfragen durchzuführen, so relevante Mutationen zu finden, oder verfeinerte Abfragen ohne bioinformatische Unterstützung neu zu stellen.
Ich präsentiere eine Variantenentdeckungsplattform, die die Mängel aktueller Werkzeuge in diesen Aspekten löst.

SNuPy wurde in der Sequenziereinheit in einer der größten pädiatrischen Onkologien Deutschlands eingesetzt, um hunderte Millionen genotypisierter Varianten über eine benutzerfreundliche Plattform zu verarbeiten und mehr als 5000 Variant-Datensätze zu verwalten.
Es wurde erfolgreich in einem breiten Spektrum von Forschungsprojekten im Rahmen von onkologischen- (7 mal), immunologischen- (6 mal), medikamentenresistenz- und klinischen Diagnose- Studien an Menschen und Mäusen (2 mal) eingesetzt.

Next generation sequencing (NGS) is able to identify hundreds of thousands of mutations per individual, revealing new insights for research and medical treatment.
This has lead to an improved characterization of tumors, discoveries of new disease-causing mechanisms in genetic diseases, as well as the identification of new treatment options.
Medical sequencing experiments are multidisciplinary efforts that require members with varying professions and degrees of expertise to generate and process the data.
Identify variants of significance in a haystack of mutations is done through interpretation by genomic experts (e.g. molecular biologists and medical doctors).

The initially large number of variants is reduced by applying custom variant annotation and filtering procedures.
This requires complex software toolchains to be set up and data sources to be integrated.
Furthermore, increasing study sizes subsequently require higher efforts to manage datasets in a multi-user and multi-institution environment.
It is common practice to expect numerous iterations of continuative respecification and refinement of filter strategies, when the cause for a disease or phenotype is unknown.
Data analysis support during this phase is fundamental, because handling the large volume of data is not possible or inadequate for users with limited computer literacy.
Constant feedback and communication is necessary when filter parameters are adjusted or the study grows with additional samples.
Consequently, variant filtering and interpretation becomes time-consuming and hinders a dynamic and explorative data analysis by experts.

In this work I present SNuPy, an interactive tool that empowers genomic experts to analyze their own variant datasets.
A user-friendly interface allows to manage datasets and filter small variants (SNV/Indel), as well as copy number variants from thousands of samples in parallel.
Utilizing SNuPy, genomic experts can perform quality control to verify the correctness of datasets, execute parameterized multi-criterial queries to find mutations of interest, and are enabled to refine queries without additional bioinformatic support.
I present a variant discovery platform that addresses the short-comings of current solutions for this task.

SNuPy was deployed in the sequencing facility in one of Germanys largest pediatric oncologies to handle hundreds of millions of genotyped variants in a user-friendly platform, managing more than 5000 variant datasets.
It has successfully contributed to a broad range of research projects as part of oncological (7 times), immunological (6 times), drug-resistance and clinical diagnostic studies in human and mice (2 times).
Lizenz:In Copyright
Urheberrechtsschutz
Fachbereich / Einrichtung:Mathematisch- Naturwissenschaftliche Fakultät » WE Informatik
Dokument erstellt am:16.07.2019
Dateien geändert am:16.07.2019
Promotionsantrag am:16.04.2019
Datum der Promotion:28.06.2019
english
Benutzer
Status: Gast
Aktionen