Identification of genes and pathways involved in pancreatic adenocarcinoma using bioinformatics and experiment analysis
Language
Document Type
Issue Date
Issue Year
Authors
Editor
Abstract
Abstract
Introduction: Pancreatic adenocarcinoma (PAAD) is one of the major causes of cancer-related deaths, with the 5-year relative overall survival rate of approximately 9% and the median survival time only 3~6 months. It is urgently required to identify key genes and key pathways related to the molecular mechanisms of PAAD progression and prognosis. In our study, we sought to identify potential differentially expressed genes (DEGs) between PAAD and normal pancreatic tissues. Thus, we selected candidate genes in PAAD by integrating Gene Expression Omnibus (GEO) Datasets using the Surrogate Variable Analysis algorithm (SVA) and Linear Models for Microarray Data (LIMMA) to remove batch effects, background correction and quantile normalization of different GEO datasets. Finally, we confirmed the bioinformatic results by experiment.
Methods: Seven mRNA microarray datasets (GSE15471, GSE16515, GSE27890, GSE28735, GSE46234, GSE62165, GSE62452) from GEO database were selected for a thorough bioinformatics analysis. Then, we used the limma package in R project to identify DEGs. Moreover, DEGs were enrichment by GO (Gene Ontology) and KEGG (Kyoto Encyclopedia of Genes and Genomes) analyses using clusterProfiler package in R project. In the other hand, protein-protein interaction (PPI) network of the DEGs was conducted with the PPI online website, STRING (Search Tool for the Retrieval of Interacting Genes database), then visualized and analyzed by Molecular Complex Detection (MCODE) APP in Cytoscape software to identify candidate genes. Receiver Operator Characteristic (ROC) curve and Kaplan-Meier (KM) curve were performed to analyze the diagnostic and prognostic value of the candidate gene. Meanwhile, the candidate gene expression was further validated in tissues of PAAD patients in TCGA and GTEx database. Eventually, we validated our bioinformatical analysis by choosing the candidate gene FAM83D and analyzing its effect cell- and molecular biological.
Results: A total of 385 DEGs were identified, consisting of 344 upregulated and 41 downregulated. Extracellular matrix structural constituent and protein digestion and absorption were the mainly enriched GO function and enriched KEGG pathways, respectively. The PPI network was constructed with 382 nodes and 2142 interactions. Moreover, the 51 candidate genes in the most enrichment cluster, the MCODE cluster 1, were selected by MCODE APP including ECT2 and FAM83D. Finally, the FAM83D gene was selected for further analysis. Knockout of FAM83D by CRISPR-Cas9 system inhibited migration, proliferation and chemotherapy resistance ability. In addition, FAM83D may related to the ERK/GSK3β pathway.
Conclusion: We think that FAM83D contributed to the development of PAAD related to the ERK/GSK3β pathway, thus it may be severed as a potential biomarker and therapy target for PAAD. In addition, these results proved that our data mining process is validation by the experiment of gene expression and function analysis. Due to our lab have validated the ECT2 and FAM83D, we think that this bioinformatics process could do well in biomarker screening and the other candidate genes are worth for further experimental verification to identify novel diagnosis, prognostic and therapeutic targets for the therapy of PAAD.
Abstract
Zusammenfassung Einleitung: Das Adenokarzinom des Pankreas (PAAD) ist mit einer relativen 5-Jahres-Gesamtüberlebensrate von ca. 9% und einer medianen Überlebenszeit von nur 3~6 Monaten eine der Hauptursachen für krebsbedingte Todesfälle. Es ist dringend erforderlich weitere Schlüsselgene und Schlüsselwege zu identifizieren, die mit den molekularen Mechanismen der PAAD-Progression und -Prognose zusammenhängen. In unserer Studie versuchten wir potenzielle differentiell exprimierte Gene (DEGs) zwischen PAAD und normalem Pankreasgewebe zu identifizieren. Wir wählten unsere Kandidatengene für das PAAD, indem wir Gene Expression Omnibus (GEO) Datasets unter Verwendung des Surrogate Variable Analysis Algorithmus (SVA) und Linear Models for Microarray Data (LIMMA) integrierten, um Batch-Effekte, Hintergrundkorrektur und Quantil-Normalisierung verschiedener GEO-Datensätze zu entfernen. Schließlich haben wir die bioinformatischen Ergebnisse auch noch experimentell bestätigt. Methoden: Sieben mRNA-Microarray-Datensätze (GSE15471, GSE16515, GSE27890, GSE28735, GSE46234, GSE62165, GSE62452) aus der GEO-Datenbank wurden für eine gründliche bioinformatische Analyse ausgewählt. Dann wurde das Limma-Paket im R-Projekt verwendet, um DEGs zu identifizieren. Darüber hinaus wurden DEGs durch GO (Gene Ontology) und KEGG (Kyoto Encyclopedia of Genes and Genomes) Analysen mit dem ClusterProfiler-Paket im R-Projekt angereichert. Außerdem wurde das Protein-Protein-Interaktions-Netzwerk (PPI) der DEGs mit der PPI-Online-Website STRING (Search Tool for the Retrieval of Interacting Genes database) erstellt und dann mithilfe der Molecular Complex Detection (MCODE) APP in der Cytoscape-Software visualisiert und analysiert um schließlich Kadnidatengene zu identifizieren. Wir analysierten den diagnostischen und prognostischen Wert der Kandidatengene anhand von uns erstellten Receiver Operator Characteristic (ROC)-Kurven und Kaplan-Meier (KM)-Kurven der jeweiligen Gene. Zusätzlich wurde die Kandidatengenexpression in Geweben von PAAD-Patienten in der TCGA- und GTEx-Datenbank validiert. Schließlich überprüften wir unsere Ergebnisse anhand des Kandidatengens FAM83D zell- und molekularbiologisch, um unsere bioinformatische Analyse zu validieren. Ergebnisse: Insgesamt wurden 385 DEGs identifiziert, davon 344 hochregulierte und 41 herunterregulierte. Die GO-Funktions-bzw. KEGG-Wege Analyse ergab Anreicherung von DEGs mit der Funktion als Strukturprotein der extrazellulären Matrix, sowie Proteinverdauung und-absorption. Das PPI-Netzwerk wurde mit 382 Knoten und 2142 Interaktionen aufgebaut. Darüber hinaus wurden 51 Kandidatengene im Cluster mit der höchsten Anreicherung von MCODE APP ausgewählt, darunter ECT2 und FAM83D. Schließlich wurde das FAM83D-Gen für die weitere Analyse ausgewählt. Knockout von FAM83D durch das CRISPR-Cas9-System hemmte Migration, Proliferation und Chemotherapieresistenz. Darüber hinaus fanden wir einen möglichen Zusammenhang zwischen FAM83D und dem ERK/GSK3β-Signalweg. Fazit: Wir glauben, dass FAM83D zur Entwicklung von PAAD im Zusammenhang mit dem ERK/GSK3β-Signalweg beiträgt und daher als potenzieller Biomarker und Therapieziel für PAAD angesehen werden könnte. Darüber hinaus haben diese Ergebnisse bewiesen, dass unser Data-Mining-Prozess durch Genexpressions-und Funktionsanalyse validiert wird. Da unser Labor ECT2 und FAM83D validiert hat, glauben wir, dass dieser bioinformatische Prozess beim Biomarker-Screening gut abschneiden könnte und die anderen Kandidatengene für eine weitere experimentelle Überprüfung wert sind, um neue diagnostische, prognostische und therapeutische Ziele für die Therapie von PAAD zu identifizieren.