190102 【生信技能樹】GEO數(shù)據(jù)挖掘

1.項(xiàng)目總覽及Github介紹

介紹整個(gè)項(xiàng)目
簡(jiǎn)介Github,注冊(cè),下載其中代碼

  • R語(yǔ)言用文件夾+project方式組織,定位所有數(shù)據(jù)和代碼

2.通用文獻(xiàn)閱讀及規(guī)律

  • identification of the interaction network of hub genes for melanoma treated with vemurafenib based on microarray data
    文獻(xiàn)導(dǎo)讀,注意文章中找到差異性的方法
    例子中是p值<0.01,|logFC|≥2
  • 差異基因要通過閾值控制,~200多差異比較正常
    -至少看20篇相關(guān)文章,提煉脈絡(luò),選擇GSE- 表達(dá)矩陣-差異分析-5大數(shù)據(jù)庫(kù)的注釋-PPI等網(wǎng)絡(luò)

了解GEO數(shù)據(jù)庫(kù)(生新技能樹公眾號(hào),解讀GEO)

GSE號(hào)-修改URL即可到數(shù)據(jù)庫(kù)
refseq_id, GEOquery
芯片基礎(chǔ)知識(shí)(生信技能樹論壇)
HG-U133_Plus_2(經(jīng)典芯片)

3. 數(shù)據(jù)下載的3種方式

  • ①下載rawdata(不推薦)
  • ②下載表達(dá)矩陣(matrix)
  • ③ R語(yǔ)言直接讀取GSE號(hào) (GEOquery)
    getGEO("GSE42549", GSEMatrix = TRUE, AnnotGPL = FALSE, getGPL= FALSE)
  • 不同芯片用不同的R包

4.ID轉(zhuǎn)換技巧大全

downGSE

  • geneID,探針和基因不是一一對(duì)應(yīng)的,且基因本身就是多種多樣(entrez ID和symbol是最重要的)
  • ID轉(zhuǎn)換,library(hgu95av2.db )
    不同平臺(tái)對(duì)應(yīng)不同R包,可谷歌
  • ID轉(zhuǎn)換實(shí)操,

5. 了解你的表達(dá)矩陣

實(shí)操,跑代碼,了解PCA,hclust圖等

6. 差異分析

limma對(duì)芯片數(shù)據(jù)做差異分析
需要

  • 表達(dá)矩陣
  • 分組矩陣
  • 差異比較矩陣
    實(shí)現(xiàn)步驟
  • lmFit
  • eBayes
  • topTable
    高清代碼的input

7. 火山圖、熱圖制作及美化

火山圖、超幾何分布
plot(nrDEGlogFC, -log10(nrDEGP.Value))
bitr(gene,fromType = "ENTREZID", toType = c("ENSEMBL","SYMBOL"), OrgDb = org.Hs.eg,db)

8. KEGG-GO等數(shù)據(jù)庫(kù)的注釋及GSEA分析

實(shí)操

9. 收尾的幾點(diǎn)建議

多看paper,多練習(xí)

10. 批量生存分析

Github,jimmy賬戶:jmzeng1314
好好學(xué)R語(yǔ)言

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容