戰(zhàn)拖打卡3
今天的任務(wù)是多數(shù)據(jù)集的合并和批次效應(yīng)的移除。
數(shù)據(jù)集合并
方法
- rbind 行合并
- cbind 列合并
- merge
merge(data1,data2,by="id",all=T) #所有數(shù)據(jù)列都放進(jìn)來(lái),空缺的補(bǔ)值為NA
merge(data1,data2,by="id",all=F) # 只取兩者的共有的部分
-
dplyr包
dplyr combine.png
merge_eset <- inner_join (eset1,eset2, by='symbol')
批次效應(yīng)
批次效應(yīng)是指樣品在不同批次中處理和測(cè)量產(chǎn)生的與試驗(yàn)期間記錄的任何生物變異無(wú)關(guān)的技術(shù)差異。
去除基因表達(dá)量批次效應(yīng)的主要方法有removeBatchEffect(limma包)、ComBat方法(sva包)、替代變量分析法、距離加權(quán)判別法和基于比值的方法等,
需要注意的
1.批次效應(yīng)不能被消除,只有盡可能的降低;
2.批次因素和分組因素可能重疊,所以直接對(duì)原數(shù)據(jù)矯正批次可能會(huì)抵消一部分真實(shí)生物學(xué)因素;
3.使用removeBatchEffect或者ComBat函數(shù)后得到的表達(dá)數(shù)據(jù),僅可用于銜接可視化(如聚類、PCA等),可視化展示;不能將去批次后的數(shù)據(jù)用于差異分析!
4.如果想要在鑒定差異基因的過(guò)程中降低批次效應(yīng),將批次加入到design中。
disign = ~ batch + groups
