幾個知識點:
External RNA Controls Consortium (ERCC) :(旨在尋找)通用的RNA參考物,在基因表達定量時可以使用;ERCC并不是內(nèi)參基因,比之內(nèi)參基因更為穩(wěn)定
spike-in:已知濃度的外源RNA分子,在單細胞裂解液中加入spike-in后,再進行反轉(zhuǎn)錄。最廣泛使用的spike-in是由External RNA Control Consortium (ERCC)提供的。目前使用的賽默飛公司提供的ERCC是包括92個不同長度和GC含量的細菌RNA序列,因此它和哺乳動物轉(zhuǎn)錄組不同,主要體現(xiàn)在轉(zhuǎn)錄本長度、核苷酸成分、polyA長度、沒有內(nèi)含子、沒有二級結構。polyA尾大約15nt(一般保守的內(nèi)源mRNA的polyA尾有250nt)。用它是為了更好地估計和消除單細胞測序文庫的系統(tǒng)誤差(除此以外,還有一種UMI在10X中常用)。ERCC應該在樣本解離后、建庫前完成添加。
具體作用為:
- 評價準確性Accuracy:定量結果和已知的spike-in相關性如何
- 評價敏感性Sensitivity:最少需要多少數(shù)量的RNA分析才能檢測到spike-in的存在
- 在這篇文章中(https://f1000research.com/posters/6-434#),提到了:加入的ERCC保持一個濃度,在這個濃度下,如果有超過50%的ERCC在所有樣本中都能檢測到,就說明這個基因可以被檢測到,高ERCC含量與低質(zhì)量數(shù)據(jù)相關,通常是排除的標準
- 如果ERCC的reads數(shù)很高,則表示起始內(nèi)源性RNA總量低(可能發(fā)生了細胞凋亡或者其他脅迫因素導致的RNA降解;另外還可能是細胞體積小,一般來講小細胞比大細胞有更高比例的ERCC)。
- 其實是否要加spike-in目前還是存在爭議的:Spike-ins的使用濃度通常很高,因此會占據(jù)很大比例的測序reads;ERCC的捕獲效率要低于內(nèi)源mRNA(Svensson et al., 2017);ERCC會顯示高的技術誤差,某些情況下會比內(nèi)源mRNA的表達量更高;另外spike-in的定量會受生物學因素的影響,這會影響它作為對照的可信度
spike-in最廣泛的就是ERCC
歸一化 cpm
cpm(counts per million)每百萬堿基中每個轉(zhuǎn)錄本的count值。注意:這個算法只是校正文庫差異,而沒有校正基因長度差異。
log2(edgeR::cpm(dat)+1)
聚類 dist() ~ hclust() != WGCNA
- dist使用時注意矩陣轉(zhuǎn)置,主要有6種計算方法:”歐式euclidean”, “切比雪夫距離maximum”, “絕對值距離manhattan”, “Lance距離canberra”, “定型變量距離binary” or “明可夫斯基距離minkowski(使用時要指定p值)”。
默認使用第一種歐氏距離,它計算的是:幾何空間中兩點之間的距離。 - hclust進行層次聚類的方法(系譜聚類)
關于hclust聚類的方法:”離差平方和法ward”, “最短距離法single”, “最長距離法complete”,”類平均法average”, “相似法mcquitty”, “中間距離法median” or “重心法centroid”。
默認使用complete算法。
clus = cutree(hc, 4)cutree就是指定輸出哪些群(結果是從大群到小群排列) - 提取批次信息
library(stringr)
plate=str_split(colnames(dat),'_',simplify = T)[,3]
- 每個樣本的基因表達信息
- 熱圖基礎上的歸一化
scale() scale處理后并不改變數(shù)據(jù),只是修改坐標,可降低必需極值對整個數(shù)據(jù)的影響。scale是對列進行操作,而我們是想對基因(也就是按行操作),這個函數(shù)有兩個主要的選項:center和scale ,其中center是將每列的元素減去這一列的均值(這個選項是默認TRUE的);scale 是在center操作后,再將處理過的元素除以標準差(同樣是默認TRUE的)。另外,處理完別忘了再轉(zhuǎn)換回來 - 重新分組
數(shù)據(jù)備份是必須的好習慣數(shù)據(jù)備份是必須的好習慣數(shù)據(jù)備份是必須的好習慣
完整文章在單細胞天地微信公眾號