學(xué)習(xí)目標(biāo)
- 了解設(shè)置重復(fù)對(duì)于
RNA-seq分析的重要性 - 了解生物重復(fù)次數(shù)、測(cè)序深度和鑒定到的差異表達(dá)基因之間的關(guān)系
- 了解如何設(shè)計(jì)
RNA-seq實(shí)驗(yàn),以避免批次效應(yīng)
1. 注意事項(xiàng)
了解 RNA 提取和 RNA-seq 文庫(kù)制備實(shí)驗(yàn)過(guò)程中的步驟,有助于設(shè)計(jì) RNA-seq 實(shí)驗(yàn),但有一些特殊的注意事項(xiàng)需要明確:
- 重復(fù)次數(shù)和類型
- 避免混淆
- 處理批次效應(yīng)
2. 重復(fù)
實(shí)驗(yàn)重復(fù)可以通過(guò)技術(shù)重復(fù)或生物學(xué)重復(fù)來(lái)實(shí)現(xiàn),如下圖:

- 技術(shù)重復(fù)
使用相同的生物樣本重復(fù)實(shí)驗(yàn)步驟,以準(zhǔn)確測(cè)量技術(shù)差異并在分析過(guò)程中將其去除。
- 生物學(xué)重復(fù)
使用相同條件下的不同生物樣本來(lái)衡量樣本間的差異。
在微陣列時(shí)代,技術(shù)重復(fù)被認(rèn)為是必要的;然而,當(dāng)前的 RNA-seq 技術(shù),技術(shù)差異遠(yuǎn)低于生物差異,因此不需要技術(shù)重復(fù)。相反,生物重復(fù)對(duì)于差異表達(dá)分析是絕對(duì)必要的。
對(duì)于差異表達(dá)分析,生物學(xué)重復(fù)越多,對(duì)生物學(xué)變異的估計(jì)就越好,我們對(duì)平均表達(dá)水平的估計(jì)也就越精確。因此,數(shù)據(jù)可以進(jìn)行更準(zhǔn)確的建模并識(shí)別更多差異表達(dá)的基因。

如上圖所示,生物重復(fù)比測(cè)序深度更重要,測(cè)序深度是每個(gè)樣本測(cè)序的讀數(shù)總數(shù)。該圖顯示了測(cè)序深度和重復(fù)次數(shù)對(duì)鑒定出的差異表達(dá)基因數(shù)的關(guān)系。與增加測(cè)序深度相比,重復(fù)次數(shù)的增加往往會(huì)得到更多的差異表達(dá)基因。因此,通常更多的重復(fù)比更高的測(cè)序深度更好,但需要注意的是,檢測(cè)低表達(dá)的差異表達(dá)基因和執(zhí)行異構(gòu)體水平(可變剪切)的差異表達(dá)分析需要更高的深度。
下面列出了一些關(guān)于重復(fù)和測(cè)序深度的建議,用于實(shí)驗(yàn)規(guī)劃:
-
通用建議:
- ENCODE 建議每個(gè)樣本有 3000 萬(wàn)個(gè) SE
reads。 - 如果有大量的重復(fù) (>3),每個(gè)樣本 1500 萬(wàn)次
reads通常就足夠了。 - 如果可能,進(jìn)行更多的生物重復(fù)。
- 通常建議讀取長(zhǎng)度 >= 50 bp
- ENCODE 建議每個(gè)樣本有 3000 萬(wàn)個(gè) SE
-
含有低表達(dá)基因:
- 同樣,重復(fù)比測(cè)序深度更有作用。
- 深度更深,至少有 30-60 百萬(wàn)
reads,具體取決于表達(dá)水平。
-
異構(gòu)體水平的差異表達(dá):
- 新亞型的深度應(yīng)該更大(每個(gè)樣本 > 6000 萬(wàn)
reads)。 - 對(duì)
RNA質(zhì)量進(jìn)行質(zhì)控。
- 新亞型的深度應(yīng)該更大(每個(gè)樣本 > 6000 萬(wàn)
-
其他類型的
RNA分析(內(nèi)含子保留、small RNA-Seq等):- 取絕于具體的分析
總之,盡量做生物學(xué)重復(fù)。
3. Confound
Confounding 是指:無(wú)法區(qū)分結(jié)果是由什么原因?qū)е碌?/strong>。
例如,我們知道性別對(duì)基因表達(dá)有很大影響,如果我們所有的對(duì)照組小鼠都是雌性而所有處理組小鼠都是雄性,那么我們的治療效果就會(huì)被性別混淆。我們無(wú)法區(qū)分是處理的作用和性別的作用。

- 如何避免:
- 如果可能,確保每種情況下的動(dòng)物都是相同的性別、年齡和批次。
- 如果不可能,則確保在不同條件下平均分配動(dòng)物。

4. 批次效應(yīng)
批次效應(yīng)是 RNA-seq 分析的一個(gè)重要問(wèn)題,僅由批次效應(yīng)就能導(dǎo)致顯著的表達(dá)差異。

- 如何確定是否有批次效應(yīng)
- 是否所有的
RNA提取都是在同一天進(jìn)行的? - 是否所有的文庫(kù)構(gòu)建都是在同一天進(jìn)行的?
- 是否同一個(gè)人對(duì)所有樣品進(jìn)行了
RNA提取與文庫(kù)制備? - 是否對(duì)所有樣品使用了相同的試劑?
- 是否在同一地點(diǎn)進(jìn)行
RNA提取與文庫(kù)制備?
如果任何一個(gè)答案是“否”,那么就存在批次效應(yīng)。
5. 建議
- 如果可能,以避免分批的方式設(shè)計(jì)實(shí)驗(yàn)。
- 如果無(wú)法避免分批:
- 不要按批次混淆實(shí)驗(yàn):

- 跨批次拆分不同樣本組的重復(fù)。重復(fù)次數(shù)越多越好(超過(guò) 2 個(gè))。

- 請(qǐng)務(wù)必在實(shí)驗(yàn)數(shù)據(jù)中包含批次信息。在分析過(guò)程中,如果沒(méi)有混淆,可以回歸出由于批次引起的變異,所以有這些信息,它不會(huì)影響結(jié)果。

歡迎Star -> Github 學(xué)習(xí)目錄( <-點(diǎn)擊跳轉(zhuǎn))
國(guó)內(nèi)鏈接 -> 學(xué)習(xí)目錄( <-點(diǎn)擊跳轉(zhuǎn))
本文由mdnice多平臺(tái)發(fā)布