Going beyond GWAS: New methods to interpret association signals

Details

Ressource 1Download: thesis_david_lamparter-OK.pdf (18246.68 [Ko])
State: Public
Version: After imprimatur
Serval ID
serval:BIB_0A6E81155135
Type
PhD thesis: a PhD thesis.
Collection
Publications
Institution
Title
Going beyond GWAS: New methods to interpret association signals
Author(s)
Lamparter Félix David
Director(s)
Bergmann  Sven , Kutalik  Zoltán
Institution details
Université de Lausanne, Faculté de biologie et médecine
Address
Faculté de biologie et de médecine
Université de Lausanne
CH-1015 Lausanne
SUISSE

Publication state
Accepted
Issued date
2017
Language
english
Abstract
The aim of genetics is to understand the genetic basis of traits by linking genetic variability to phenotypic variability. In recent years, progress in the field of complex human trait genetics led to the discovery of thousands of common genetic variants robustly associated with complex human traits through genome-wide association studies (GWAS). However, it is currently unclear how to best to tackle the challenge of interpreting variants in the context of the biology involved. My work explored various avenues to help in this challenge.
One strategy for interpretation is pathway analysis, where prior biological knowledge is formalized into sets of genes with annotated functions and results from genetics studies are searched for enrichments. Using this approach, one can connect the biological processes to the investigated trait. For this purpose, I developed a methodology to calculate pathway enrichments from GWAS results in an efficient way and in agreement with statistical principles. As a first step, the methodology combines results for SNPs in a gene region into a single gene wise p-value, with methods that are both fast and have a high level of numerical precision. The speed allows controlling the pathway enrichment step for potential correlation between genes leading to statistically correct p-values. This methodology was implemented in a software tool called Pascal. Its performance was tested on a large set of GWAS results and compared favorably to other methods. Efforts were made to ensure that the software would be easy to use by a wider community.
Another challenge in the interpretation of GWAS results is to understand the reasons a genetic variant leads to changes in phenotype. Most uncovered variants seem to impact gene regulation. Therefore, understanding chromatin architecture will be crucial to understand the regulatory consequences of genetic variants. One feature of eukaryotic chromatin is that it can take the form of a compacted state making it inaccessible to most regulatory factors. To help elucidate which factors play a role in moving between compacted an open state, I developed an new method of integrative data analysis for transcription factor motif, DNase1 hypersensitivity and gene expression data. Transcription factor motif and DNase1 hypersensitivity were combined to calculate chromatin accessibility scores. These in turn were associated to gene expression using a linear mixed modeling approach. Applying this method on large public datasets predicted a set of candidate chromatin accessibility regulators. This set was heavily enriched in ’pioneer factors’: factors that can bind and open compacted chromatin, suggesting that the approach did indeed uncover regulators of chromatin accessibility.
A major hindrance to the interpretation of human variants uncovered by GWAS is that it is not possible to perform genetic manipulations to validate and build on the findings. Therefore, investigations using model organisms remain relevant. To further the understanding of the genetics of fly growth control, I helped in the statistical analysis of a GWAS data set in an
. The study is noteworthy for its extensive environmental control and follow-up experiments on candidate genes.
--
La génétique cherche à comprendre la base génétique de caractères observables, dits phénotypes, en liant la variabilité génétique à la variabilité phénotypique. Ces dernières années, les progrès apportés à la génétique des phénotypes complexes ont amené à la découverte de milliers de variations génétiques associées significativement à des phénotypes humains complexes, au moyen de l’étude d’association pangénomique, communément appelée GWAS (de l’anglais Genome-Wide Association Study). Cependant, interpréter ces associations dans leur contexte biologique reste un défi. Mon travail a consisté à explorer différentes possibilités pour y répondre.
Une des stratégies pour relier un phénotype étudié aux processus biologiques est l’analyse par voies moléculaires, où l’on recherche un enrichissement des associations GWAS parmi l’ensemble de groupes de gènes de fonctions cohérentes. Cette analyse permet ainsi de relier des processus biologiques au phénotype étudié. Dans ce but, j’ai développé une méthode calculant avec efficacité l’enrichissement des voies moléculaires des associations GWAS. La méthode combine les résultats des polymorphismes dans la région d’un gène en une probabilité pour un gène, au moyen de méthodes rapides et précises. La vitesse permet de contrôler l’étape d’enrichissement des voies pour une corrélation potentielle entre les gènes, menant à des probabilités statistiquement correctes. J’ai implémenté cette méthode dans le logiciel Pascal. Sa performance a été testé sur un large jeu de résultats GWAS et il surpasse les autres méthodes. Des efforts ont été fait afin d’assurer que le logiciel soit facile d’utilisation pour la communauté scientifique.
Un autre défi lié à l’interprétation des résultats GWAS est de comprendre les raisons pour lesquelles une variation génétique résulte en un changement phénotypique. La plupart des variations découvertes semblent affecter la régulation des gènes. Ainsi, comprendre l’architecture de la chromatine est crucial pour appréhender les conséquences régulatrices de ces variations. Une des caractéristiques de la chromatine des eucaryotes est qu’elle peut être compactée, la rendant inaccessible à la plupart des facteurs de régulations. Pour trouver quels sont les facteurs jouant un rôle dans le passage entre états compacté et ouverts, j’ai développé une nouvelle méthode intégrant l’analyse des motifs de facteurs de transcription, l’hypersensibilité de la Dnase1 et les données d’expression des gènes. Les deux premiers critères ont été combiné pour calculer des scores d’accessibilité de la chromatine. Ils ont ensuite été associés à l’expression des gènes en utilisant un modèle linéaire mixte. L’application de cette méthode sur des larges données publiques a prédit des régulateurs candidats d’accessibilité de la chromatine. Ce jeu était enrichi en “facteurs pionniers”, qui s’accrochent et ouvrent la chromatine compactée, suggérant que cette approche a en effet permis de découvrir des régulateurs d’accessibilité à la chromatine.
Un obstacle majeur dans l’interprétation des variations humaines découvertes par GWAS est qu’il n’est pas possible de réaliser des manipulations génétiques permettant de valider ces découvertes, d’où l’utilisation d’organismes modèles. Afin de comprendre davantage la génétique du contrôle de croissance des mouches, j’ai aidé à l’analyse statistique de données de GWAS d’une population L’étude est remarquable pour son contrôle environnemental étendu et
ses expériences de suivi sur les gènes candidats.

Create date
31/03/2017 15:44
Last modification date
20/08/2019 13:32
Usage data