RNA-seq數(shù)據(jù)和microassay在差異表達(dá)分析上的區(qū)別:
- RNA-Seq觀察到的數(shù)據(jù)是抽樣過程中產(chǎn)生的離散(discrete) count形式。也就是說總體是恒定的(測序深度是恒定的),表達(dá)量越高的基因在抽樣結(jié)果中所占的比例越大。表達(dá)量低的基因可能即便有也無法被檢測出來。當(dāng)然重新對(duì)相同文庫進(jìn)行測序,還是有可能找到更多表達(dá)的轉(zhuǎn)錄本
- microassay檢測的是熒光信號(hào)的連續(xù)度量。由于使用固定的核酸序列去交。所以不是一種"零和游戲",只要能雜交,就能被檢測。(但如果沒有設(shè)計(jì)相應(yīng)的引物,就不能檢測到可能的基因)
RNA-Seq的概率分布

image
RNA-Seq是目前基因表達(dá)分析最常用的技術(shù)。分為以下幾步
- 分離所有mRNA
- 逆轉(zhuǎn)錄mRNA成cDNA
- 對(duì)cDNA測序
- 比對(duì)參考基因組
RNA-Seq實(shí)驗(yàn)設(shè)計(jì)中的“重復(fù)”包括:技術(shù)重復(fù)和生物學(xué)重復(fù)
重復(fù)是為了檢測組間和組內(nèi)的變異,對(duì)于假設(shè)檢驗(yàn)至關(guān)重要。
技術(shù)重復(fù)為了估計(jì)測量技術(shù)(RNA-Seq)的變異。
生物學(xué)重復(fù)是為了發(fā)現(xiàn)生物組內(nèi)的變異。
簡單的說,兩組的基因表達(dá)的變化只有比組內(nèi)變異還大時(shí)才能認(rèn)為時(shí)顯著的。
- 相同基因在不同細(xì)胞的表達(dá)水平服從log-normal(對(duì)數(shù)正態(tài))分布,由定量PCR驗(yàn)證。 (注:這與相同細(xì)胞不同基因表達(dá)的分布不同)但是大多數(shù)基因表達(dá)實(shí)驗(yàn)都是用一群細(xì)胞,幾乎沒有相應(yīng)分布提出。
- RNA-Seq試驗(yàn)中,抽樣得到的raw read counts服從泊松分布。并且同一樣本在兩次試驗(yàn)中的結(jié)果不同,這稱為shot noise。這種變異在RNA-Seq技術(shù)重復(fù)間稱為Possion noise。
- 生物學(xué)上不同的樣本間的差異服從負(fù)二項(xiàng)(negative binomial)分布,有時(shí)稱gamma-Poisson分布。
- 由于RNA-Seq count數(shù)據(jù)也表現(xiàn)出zero inflation(大量值為0)的特征,所以很難擬合到負(fù)二項(xiàng)分布,所以有文章認(rèn)為要用Poisson-Tweedie family建模。
研究意義
在不同背景下比較mRNA水平
同一物種,不同組織:研究基因在不同部分的表達(dá)情況
同一物種,同一組織:研究基因在不同處理下,不同條件下的表達(dá)變化
同一組織,不同物種:研究基因的進(jìn)化關(guān)系
時(shí)間序列實(shí)驗(yàn): 基因在不同時(shí)期的表達(dá)情況與發(fā)育的關(guān)系基因分類: 找到細(xì)胞特異,疾病相關(guān),處理相關(guān)的基因表達(dá)模式,用于診斷疾病和預(yù)測等
基因網(wǎng)絡(luò)和通路: 基因在細(xì)胞活動(dòng)中的功能,基因間的相互作用。