DESeq2文庫標(biāo)準(zhǔn)化
問題1:調(diào)整文庫大小的差異
樣本1的read是樣本2的一半,樣本2中每個(gè)基因的read是樣本1的兩倍。這種差異不是生物學(xué)造成的,而是測序深度造成的。RPKM,F(xiàn)PKM,TPM和CPM都處理這個(gè)問題。

問題2:調(diào)整文庫組成的差異:
RNA-seq(和其他高通量測序)經(jīng)常被用來比較一種組織類型和另一種組織類型。例如,肝臟vs脾臟。這可能是因?yàn)楦闻K中轉(zhuǎn)錄有很多肝臟特異性基因,而脾臟中卻沒有。這是一個(gè)不同的文庫組成(library composition)的例子,你也可以想象,如果你敲除一個(gè)轉(zhuǎn)錄因子,在同一種組織類型中,你會發(fā)現(xiàn)不同的文庫組成。
在這個(gè)例子中,兩個(gè)文庫有相同的大小(read),現(xiàn)在,假設(shè)所有基因的表達(dá)都是一樣的,只有一個(gè)例外。假設(shè)只有樣本1轉(zhuǎn)錄A2M, 這意味著樣本1中A2M消耗掉的563個(gè)reads,這563reads將會分布到樣本2中的其他基因上。在樣本2中,除了A2M之外,所有的reads都非常高。然而,唯一的差異表達(dá)基因是A2M。

上傳失敗...(image-dfdecb-1610511799293)
編寫DESeq2(和edgeR)的人意識到他們的工具將用于各種類型的數(shù)據(jù)集,所以他們希望他們的標(biāo)準(zhǔn)化去處理:
問題1:調(diào)整文庫大小的差異
問題2:調(diào)整文庫組成的差異:
我們將從一個(gè)小數(shù)據(jù)集開始,說明DESeq2如何縮放(scale)不同的樣本。目標(biāo)是為每個(gè)樣本計(jì)算一個(gè)標(biāo)準(zhǔn)化因子(scaling factor)。標(biāo)準(zhǔn)化因子必須考慮到read depth和library composition。
第一步:對全部值取log
DESeq2使用了log(“以e為底的log”)
DESeq2可以使用log2或log10,但在R中l(wèi)oge默認(rèn)值。
注意log(0) =-∞,這是因?yàn)镽定義log(0)等于-∞。
第二步:每行取平均值
任何時(shí)候你把一個(gè)數(shù)字加到無窮(或-無窮)你會得到無窮(或-無窮),這就是為什么這是負(fù)無窮。因?yàn)镚ene1是負(fù)無窮,所以平均值也是負(fù)無窮。
對數(shù)值的平均值有一件很酷的事情,那就是這個(gè)平均值不容易被異常值所影響。同理,我們可以看Gene3,存在異常值,取對數(shù)后,影響減小。

第三步:過濾掉值為負(fù)無窮的基因
一般來說,這一步在一個(gè)或多個(gè)樣本中過濾掉read為零的基因。
如果你在比較肝臟和脾臟,這將去除所有只在肝臟(或脾臟)轉(zhuǎn)錄的基因。
理論上,這有助于將標(biāo)準(zhǔn)化因子集中在管家基因上——無論組織類型如何,基因轉(zhuǎn)錄水平都是相似的。
第四步:從log(counts)中減去平均對數(shù)值
- 我們要檢查的是每個(gè)樣本讀取數(shù)與所有樣本均值的比。


第五步:計(jì)算每個(gè)樣本比的中位數(shù)(median)
注意:使用中位數(shù)是另一種避免極端基因在一個(gè)方向上過度影響的方法
表達(dá)差異較大的基因?qū)χ形粩?shù)的影響并不比表達(dá)差異較小的基因大,因?yàn)榫哂芯薮蟛町惖幕驑O有可能是罕見的,因此,這種效應(yīng)會給差異較小的和“管家”基因帶來更大的影響。
第六步:將中位數(shù)轉(zhuǎn)換為“正態(tài)數(shù)”,得到每個(gè)樣本的最終的標(biāo)準(zhǔn)化因子
這些是對數(shù)值,所以它們是指數(shù)(這里是e的指數(shù))
太棒了! !我們有三個(gè)樣本的標(biāo)準(zhǔn)化因子,現(xiàn)在我們要做的就是把原始的reads除以它們。

第七步:將原始reads除以標(biāo)準(zhǔn)化因子
