今天我們介紹一篇稍高分?jǐn)?shù)的文章,來(lái)看一下生信挖掘文章如何發(fā)更高檔次的雜志。這篇文章是利用GEO和TCGA數(shù)據(jù)挖掘?qū)m頸癌預(yù)后相關(guān)的關(guān)鍵基因,2019年發(fā)表在Journal of Cellular Physiology 影響因子:4.52左右。

1.芯片數(shù)據(jù)差異基因及注釋分析結(jié)果
作者在GEO數(shù)據(jù)庫(kù)中找到宮頸癌相關(guān)的基因芯片數(shù)據(jù):GSE63514,其中,包含28個(gè)宮頸癌樣品和24個(gè)正常樣本的基因芯片表達(dá)數(shù)據(jù),通過(guò)差異分析共發(fā)現(xiàn):1907個(gè)差異基因(944 up, 963 down)。作者利用火山圖展示差異基因結(jié)果,其中差異最大的top200個(gè)基因繪制熱圖(如下圖)。

2.差異基因蛋白互作網(wǎng)絡(luò)分析PPI分析
將差異基因提交到STRING蛋白互作數(shù)據(jù)庫(kù),構(gòu)建基因互作網(wǎng)絡(luò),利用cytoscape軟件中的MCODE插件篩選出三個(gè)關(guān)鍵子網(wǎng)絡(luò)。把這些子網(wǎng)絡(luò)中的基因進(jìn)行GO注釋;

3.針對(duì)差異基因構(gòu)建共表達(dá)網(wǎng)絡(luò)
利用R語(yǔ)言中的WGCNA包,根據(jù)差異基因的表達(dá)量信息構(gòu)建共表達(dá)網(wǎng)絡(luò),作者獲得了4個(gè)共表達(dá)模塊,其中藍(lán)色模塊與宮頸癌正相關(guān),棕色模塊與宮頸癌負(fù)相關(guān)(下圖c),因此作者在這兩個(gè)模塊中挑選hub 基因用于后續(xù)分析。

4. 從hub基因中篩選預(yù)后相關(guān)基因
通過(guò)WGCNA共表達(dá)網(wǎng)絡(luò)分析,作者共挑選出116個(gè)關(guān)鍵hub基因。然后,利用TCGA中宮頸癌表達(dá)數(shù)據(jù)以及臨床數(shù)據(jù),通過(guò)生存分析挖掘與預(yù)后相關(guān)的關(guān)鍵基因。具體方法是用Cox多因素回歸分析篩選與疾病顯著相關(guān)的基因,最終發(fā)現(xiàn)SCNN1B, ANLN, APOC1, CNTLN, and TEX30 五個(gè)基因具有顯著的預(yù)后相關(guān)性,并構(gòu)建預(yù)后風(fēng)險(xiǎn)模型:

過(guò)風(fēng)險(xiǎn)模型可將病人分成高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)兩組,生存分析發(fā)現(xiàn)兩組具有明顯的差異(下圖a)。然后針對(duì)模型的準(zhǔn)確性進(jìn)行評(píng)估,ROC曲線中AUC值達(dá)到0.719,說(shuō)明這個(gè)預(yù)測(cè)模型在5年生存期內(nèi)預(yù)后表現(xiàn)非常好。

5.甲基化數(shù)據(jù)篩選EPHX2和RMI2
作者再次對(duì)前面分析出的hub基因進(jìn)行分析,利用GEPIA database 數(shù)據(jù)庫(kù)篩選出與生存率相關(guān)的候選基因, 作者發(fā)現(xiàn)基因RMI2和EPHX2在患者中表達(dá)量越高患者生存時(shí)間會(huì)越長(zhǎng),進(jìn)一步在TCGA數(shù)據(jù)中的甲基化芯片數(shù)據(jù)分析發(fā)現(xiàn),這兩個(gè)基因的表達(dá)量與甲基化的水平負(fù)相關(guān),生存分析結(jié)果表明RMI2基因的高甲基化患者組與低甲基化組生存率生存期存在顯著不同(下圖cd),但是,EPHX2的甲基化水平與生存率不相關(guān)。

為進(jìn)一步說(shuō)明這兩個(gè)基因與宮頸的預(yù)后相關(guān),作者又在兩個(gè)數(shù)據(jù)庫(kù)(FireBrowse and ONCOMINE)中查看他們?cè)谡=M織和癌組織中的表達(dá)量發(fā)現(xiàn):EPHX2和RMI2在絕大多數(shù)癌癥當(dāng)中都表現(xiàn)為低表達(dá);從而證明了這個(gè)兩個(gè)基因如果高表達(dá)有益于患者的生存期延長(zhǎng)。
總結(jié):
作者能發(fā)相對(duì)較高分?jǐn)?shù)的文章,與其使用的數(shù)據(jù)庫(kù)較多有關(guān)系,多個(gè)數(shù)據(jù)相互驗(yàn)證,更加說(shuō)明自己結(jié)果的準(zhǔn)確性。使用到的公開數(shù)據(jù)庫(kù)包括:GEO數(shù)據(jù),TCGA表達(dá)數(shù)據(jù),TCGA甲基化數(shù)據(jù),GEPIA database,以及FireBrowse and ONCOMINE數(shù)據(jù)庫(kù)。分析流程總結(jié)如下:

參考文獻(xiàn):https://www.ncbi.nlm.nih.gov/pubmed/31041817
延申閱讀
GEO芯片數(shù)據(jù)下載?|GEO數(shù)據(jù)與WGCNA--挖掘膠質(zhì)瘤共表達(dá)網(wǎng)絡(luò)的關(guān)鍵模塊與通路|GEO和TCGA套路文章解說(shuō)|基因芯片表達(dá)差異分析|GSEA法基因功能富集分析原理詳解!|挖別人的數(shù)據(jù),發(fā)自己的文章|TCGA-數(shù)據(jù)挖掘|轉(zhuǎn)錄因子研究方法!|GEO芯片數(shù)據(jù)挖掘(直腸癌)
更多技能學(xué)習(xí)鏈接:
http://m.study.163.com/provider/400000000234009/index.htm?share=1&shareId=1031484705
更多生物信息課程:
1. 文章越來(lái)越難發(fā)?是你沒發(fā)現(xiàn)新思路,基因家族分析發(fā)2-4分文章簡(jiǎn)單快速,學(xué)習(xí)鏈接:基因家族分析實(shí)操課程、基因家族文獻(xiàn)思路解讀
2. 轉(zhuǎn)錄組數(shù)據(jù)理解不深入?圖表看不懂?點(diǎn)擊鏈接學(xué)習(xí)深入解讀數(shù)據(jù)結(jié)果文件,學(xué)習(xí)鏈接:轉(zhuǎn)錄組(有參)結(jié)果解讀;轉(zhuǎn)錄組(無(wú)參)結(jié)果解讀
3. 轉(zhuǎn)錄組數(shù)據(jù)深入挖掘技能-WGCNA,提升你的文章檔次,學(xué)習(xí)鏈接:WGCNA-加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析
4. 轉(zhuǎn)錄組數(shù)據(jù)怎么挖掘?學(xué)習(xí)鏈接:轉(zhuǎn)錄組標(biāo)準(zhǔn)分析后的數(shù)據(jù)挖掘、轉(zhuǎn)錄組文獻(xiàn)解讀
5.微生物16S/ITS/18S分析原理及結(jié)果解讀、OTU網(wǎng)絡(luò)圖繪制、cytoscape與網(wǎng)絡(luò)圖繪制課程
6. 生物信息入門到精通必修基礎(chǔ)課,學(xué)習(xí)鏈接:linux系統(tǒng)使用、perl入門到精通、perl語(yǔ)言高級(jí)、R語(yǔ)言畫圖
7. 醫(yī)學(xué)相關(guān)數(shù)據(jù)挖掘課程,不用做實(shí)驗(yàn)也能發(fā)文章,學(xué)習(xí)鏈接:TCGA-差異基因分析、GEO芯片數(shù)據(jù)挖掘、GSEA富集分析課程、TCGA臨床數(shù)據(jù)生存分析、TCGA-轉(zhuǎn)錄因子分析、TCGA-ceRNA調(diào)控網(wǎng)絡(luò)分析
8.其他課程鏈接:二代測(cè)序轉(zhuǎn)錄組數(shù)據(jù)自主分析、NCBI數(shù)據(jù)上傳、二代測(cè)序數(shù)據(jù)解讀。