整合多個(gè)GSE數(shù)據(jù)集挖掘腫瘤重要基因
都是關(guān)于肺癌的數(shù)據(jù)挖掘文章,而且是整合多個(gè)GSE數(shù)據(jù)集
組織病理上通常將肺癌分為
非小細(xì)胞肺癌(non-small-cell lung cancer,NSCLC)
小細(xì)胞肺癌(small cell lung cancer,SCLC)
其中SCLC約占全部肺癌的15%~20%,SCLC的發(fā)病與吸煙密切相關(guān),生物學(xué)特征為分化程度低、惡性程度高、倍增時(shí)間快、侵襲性強(qiáng)、預(yù)后差,中位生存期才7個(gè)月左右。
其中NSCLC又可以區(qū)分為L(zhǎng)USC和LUAD
文獻(xiàn)領(lǐng)讀
第一篇文獻(xiàn)是:Front. Genet., 12 October 2018 | https://doi.org/10.3389/fgene.2018.00469
納入4個(gè)數(shù)據(jù)集: (GSE18842, GSE19804, GSE43458, and GSE62113)
使用limma包尋找顯著的differentially expressed genes (DEGs)
使用RobustRankAggreg (RRA)整合多個(gè)數(shù)據(jù)集的差異分析結(jié)果
GO和KEGG數(shù)據(jù)庫(kù)注釋差異分析結(jié)果
使用STRING數(shù)據(jù)庫(kù)搜索差異基因集的PPI網(wǎng)絡(luò)
使用Cytoscape, and Molecular Complex Detection (MCODE)尋找PPI網(wǎng)絡(luò)的hub基因:OP2A, CCNB1, CCNA2, UBE2C, KIF20A, and IL-6
使用 Gene Expression Profiling Interactive Analysis (GEPIA) 網(wǎng)頁(yè)工具檢驗(yàn)hub基因是否具有泛癌效應(yīng)
使用網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行 Kaplan Meier-plotter (KM) 分析hub基因是否具有生存預(yù)測(cè)能力
第二篇文獻(xiàn)是:Mol Med Rep. 2018 May; 17(5): 6379–6386.
-
納入4個(gè)數(shù)據(jù)集 : GSE21933, GSE33532, GSE44077 and GSE74706
各個(gè)數(shù)據(jù)集分別做差異分析挑選顯著的(DEGs) ,閾值都是 (adjust P-value <0.05 and |log2fold-change (FC)|>1)
對(duì)4個(gè)數(shù)據(jù)集的差異分析結(jié)果找重合部分,韋恩圖展現(xiàn)
GO和KEGG數(shù)據(jù)庫(kù)注釋差異分析結(jié)果
使用STRING數(shù)據(jù)庫(kù)搜索差異基因集的PPI網(wǎng)絡(luò)
使用DEGs with a degree score ≥19 閾值判定hub基因:CCNB1, CCNA2, CEP55, PBK and HMMR
使用網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行 Kaplan Meier-plotter (KM) 分析hub基因是否具有生存預(yù)測(cè)能力
第三篇文獻(xiàn)是:Published: 26 October 2018
納入7個(gè)數(shù)據(jù)集是:GSE8569, GSE21933, GSE33479, GSE33532, GSE40275, GSE62113, GSE74706
對(duì)GSE數(shù)據(jù)集,統(tǒng)一使用limma包,閾值為(|Log2FC|?>?2, adjusted p-value?<?0.05) 來(lái)選擇顯著差異表達(dá)基因
把所有7個(gè)數(shù)據(jù)集樣本合并使用SVA包的combat函數(shù)去除批次效應(yīng)重新使用limma包選擇顯著差異表達(dá)基因
對(duì)TCGA數(shù)據(jù)庫(kù)的502 tumors and 49 adjacent non-tumor選擇差異基因
整合GEO和TCGA數(shù)據(jù)庫(kù)得到 129 genes (91 up-regulated and 38 down-regulated)
與前兩個(gè)文章同樣的下游分析得到hub基因,這次有點(diǎn)多,14個(gè) :CCNB2, PLK1, KIF2C, CENPA, CENPF, BUB1, BUB1B, BIRC5, CENPE, ZWINT, AURKB, CHEK1, EXO1, RAD51, and RFC4
對(duì)TCGA數(shù)據(jù)庫(kù)的LUSC使用GDCRNAtools選擇: a total of 124 DElncRNAs (|Log2FC|?>?2, FDR?<?0.05) and 74 DEmiRNAs (|Log2FC|?>?2, FDR?<?0.05) ,構(gòu)建ceRNA network
使用 Cytoscape 展示ceRNA network ,共 25 lncRNAs, 14 miRNAs and 14 mRNAs