RNA-seq 詳細(xì)教程:實(shí)驗(yàn)設(shè)計(jì)(2)

學(xué)習(xí)目標(biāo)

  • 了解設(shè)置重復(fù)對(duì)于 RNA-seq 分析的重要性
  • 了解生物重復(fù)次數(shù)、測(cè)序深度和鑒定到的差異表達(dá)基因之間的關(guān)系
  • 了解如何設(shè)計(jì)RNA-seq 實(shí)驗(yàn),以避免批次效應(yīng)

1. 注意事項(xiàng)

了解 RNA 提取和 RNA-seq 文庫(kù)制備實(shí)驗(yàn)過(guò)程中的步驟,有助于設(shè)計(jì) RNA-seq 實(shí)驗(yàn),但有一些特殊的注意事項(xiàng)需要明確:

  1. 重復(fù)次數(shù)和類型
  2. 避免混淆
  3. 處理批次效應(yīng)

2. 重復(fù)

實(shí)驗(yàn)重復(fù)可以通過(guò)技術(shù)重復(fù)或生物學(xué)重復(fù)來(lái)實(shí)現(xiàn),如下圖:

[Klaus B., EMBO J (2015) 34: 2727-2730](https://dx.doi.org/10.15252%2Fembj.201592958)
  • 技術(shù)重復(fù)

使用相同的生物樣本重復(fù)實(shí)驗(yàn)步驟,以準(zhǔn)確測(cè)量技術(shù)差異并在分析過(guò)程中將其去除。

  • 生物學(xué)重復(fù)

使用相同條件下的不同生物樣本來(lái)衡量樣本間的差異。


在微陣列時(shí)代,技術(shù)重復(fù)被認(rèn)為是必要的;然而,當(dāng)前的 RNA-seq 技術(shù),技術(shù)差異遠(yuǎn)低于生物差異,因此不需要技術(shù)重復(fù)。相反,生物重復(fù)對(duì)于差異表達(dá)分析是絕對(duì)必要的。

對(duì)于差異表達(dá)分析,生物學(xué)重復(fù)越多,對(duì)生物學(xué)變異的估計(jì)就越好,我們對(duì)平均表達(dá)水平的估計(jì)也就越精確。因此,數(shù)據(jù)可以進(jìn)行更準(zhǔn)確的建模并識(shí)別更多差異表達(dá)的基因。

[Liu, Y., et al., Bioinformatics (2014) 30(3): 301–304](https://doi.org/10.1093/bioinformatics/btt688)

如上圖所示,生物重復(fù)比測(cè)序深度更重要,測(cè)序深度是每個(gè)樣本測(cè)序的讀數(shù)總數(shù)。該圖顯示了測(cè)序深度和重復(fù)次數(shù)對(duì)鑒定出的差異表達(dá)基因數(shù)的關(guān)系。與增加測(cè)序深度相比,重復(fù)次數(shù)的增加往往會(huì)得到更多的差異表達(dá)基因。因此,通常更多的重復(fù)比更高的測(cè)序深度更好,但需要注意的是,檢測(cè)低表達(dá)的差異表達(dá)基因和執(zhí)行異構(gòu)體水平(可變剪切)的差異表達(dá)分析需要更高的深度。

下面列出了一些關(guān)于重復(fù)和測(cè)序深度的建議,用于實(shí)驗(yàn)規(guī)劃:

  • 通用建議:

    • ENCODE 建議每個(gè)樣本有 3000 萬(wàn)個(gè) SE reads。
    • 如果有大量的重復(fù) (>3),每個(gè)樣本 1500 萬(wàn)次 reads 通常就足夠了。
    • 如果可能,進(jìn)行更多的生物重復(fù)。
    • 通常建議讀取長(zhǎng)度 >= 50 bp
  • 含有低表達(dá)基因:

    • 同樣,重復(fù)比測(cè)序深度更有作用。
    • 深度更深,至少有 30-60 百萬(wàn) reads ,具體取決于表達(dá)水平。
  • 異構(gòu)體水平的差異表達(dá):

    • 新亞型的深度應(yīng)該更大(每個(gè)樣本 > 6000 萬(wàn) reads)。
    • 對(duì) RNA 質(zhì)量進(jìn)行質(zhì)控。
  • 其他類型的 RNA 分析(內(nèi)含子保留、small RNA-Seq 等):

    • 取絕于具體的分析

總之,盡量做生物學(xué)重復(fù)。

3. Confound

Confounding 是指:無(wú)法區(qū)分結(jié)果是由什么原因?qū)е碌?/strong>。

例如,我們知道性別對(duì)基因表達(dá)有很大影響,如果我們所有的對(duì)照組小鼠都是雌性而所有處理組小鼠都是雄性,那么我們的治療效果就會(huì)被性別混淆。我們無(wú)法區(qū)分是處理的作用和性別的作用。

  • 如何避免:
  1. 如果可能,確保每種情況下的動(dòng)物都是相同的性別、年齡和批次。
  2. 如果不可能,則確保在不同條件下平均分配動(dòng)物。
deconfound

4. 批次效應(yīng)

批次效應(yīng)是 RNA-seq 分析的一個(gè)重要問(wèn)題,僅由批次效應(yīng)就能導(dǎo)致顯著的表達(dá)差異。

[Hicks SC, et al., bioRxiv (2015)](https://www.biorxiv.org/content/early/2015/08/25/025528)
  • 如何確定是否有批次效應(yīng)
  1. 是否所有的 RNA 提取都是在同一天進(jìn)行的?
  2. 是否所有的文庫(kù)構(gòu)建都是在同一天進(jìn)行的?
  3. 是否同一個(gè)人對(duì)所有樣品進(jìn)行了 RNA 提取與文庫(kù)制備?
  4. 是否對(duì)所有樣品使用了相同的試劑?
  5. 是否在同一地點(diǎn)進(jìn)行 RNA 提取與文庫(kù)制備?

如果任何一個(gè)答案是“否”,那么就存在批次效應(yīng)。

5. 建議

  • 如果可能,以避免分批的方式設(shè)計(jì)實(shí)驗(yàn)。
  • 如果無(wú)法避免分批:
  1. 不要按批次混淆實(shí)驗(yàn):
[Hicks SC, et al., bioRxiv (2015)](https://www.biorxiv.org/content/early/2015/08/25/025528)
  1. 跨批次拆分不同樣本組的重復(fù)。重復(fù)次數(shù)越多越好(超過(guò) 2 個(gè))。
[Hicks SC, et al., bioRxiv (2015)](https://www.biorxiv.org/content/early/2015/08/25/025528)
  1. 請(qǐng)務(wù)必在實(shí)驗(yàn)數(shù)據(jù)中包含批次信息。在分析過(guò)程中,如果沒(méi)有混淆,可以回歸出由于批次引起的變異,所以有這些信息,它不會(huì)影響結(jié)果。

歡迎Star -> Github 學(xué)習(xí)目錄( <-點(diǎn)擊跳轉(zhuǎn))

國(guó)內(nèi)鏈接 -> 學(xué)習(xí)目錄( <-點(diǎn)擊跳轉(zhuǎn))


本文由mdnice多平臺(tái)發(fā)布

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容