DAY10 生信技能樹-數(shù)據(jù)挖掘第三期學(xué)習(xí)筆記

Ruizheng 的學(xué)習(xí)筆記

感謝 生信技能樹 小潔老師

繼續(xù)DAY9 的tips
1. 用limma包進(jìn)行差異分析,要確保 group_list 和 exp 輸入沒錯。
library(limma)
design=model.matrix(~group_list)
fit=lmFit(exp,design)
fit=eBayes(fit)
deg=topTable(fit,coef=2,number = Inf)
2. 非特異性探針,應(yīng)該在注釋文件中去除,不需要管
3. 多個探針對應(yīng)一個基因:按照基因去重復(fù),取均值,最大值,中位數(shù)都可用,但不是絕對正確。
用 deg[!duplicated(deg$symbol),] 去重,注意向量按邏輯值取子集,邏輯向量需要和向量元素個數(shù)一致。
4. 用探針做差異分析后,用注釋文件進(jìn)行注釋
5. 當(dāng)兩個數(shù)據(jù)框列名不一致時,inner_join(, by = c("symbol"="SYMBOL") 或者修改列名
6. R script 里面 if (F) {} 和 # ---- 可以折疊代碼
7. setReadable() 可以讓 "enrichResult" 對象 里面富集到的基因變得可讀。
8. 畫barplot dotplot 時,得到的 term 名稱過長怎么辦

文本太長怎樣處理?

9. barplot dotplot 我想用自己的映射怎么辦?

dotplot展示富集分析結(jié)果
dotplot支持使用formula指定x軸變量

10. pheatmap畫出熱圖 as.ggplot() 以后,legend 和 annotation legend 不能通過 patchwork "collect" 怎么辦?

可以嘗試將熱圖的 legend 與其他 ggplot2 生成的圖片采用同一個圖例; 自己手動改吧…


代碼流程小抄

復(fù)雜數(shù)據(jù)及分析

1. 配對數(shù)據(jù)

eg. GSE5109 GSE103455
差異分析的時候加一個pairinfo
pairinfo = factor(c(1,2,1,3,2,3))
design = model.matrix(~group_list + pairinfo)

配對樣本可視化

2. 多分組數(shù)據(jù)

eg. GSE474 GSE106191

  1. 選出一個分組作為對照,其他分組分別與對照進(jìn)行差異分析
  2. 兩兩比較


    多分組數(shù)據(jù)可視化

    三個以上分組的考慮 WGCNA

3. 多個series聯(lián)合分析

考慮批次效應(yīng)

  1. 選擇來自同一芯片平臺的series
  2. 需要處理批次效應(yīng)的 Batch effect

函數(shù)
limma::removeBatchEffect()
sva::ComBat()

4. 標(biāo)準(zhǔn)代碼后的后續(xù)分析

來一場Cytoscape的旅行之出行

生信雞湯

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容