單細(xì)胞RNA測(cè)序(single-cell RNA-seq,scRNA-seq)數(shù)據(jù)是非常有特點(diǎn)的數(shù)據(jù),具有很高的稀疏性(high sparsity),具體表現(xiàn)為0非常多(zero inflation)。對(duì)于數(shù)據(jù)的分布給出合理的假設(shè)是非常關(guān)鍵的工作,是downstream analysis的基礎(chǔ)。顯然對(duì)于scRNA-seq的reads count數(shù)據(jù),最常用的正態(tài)分布是不合理的。首先正態(tài)分布描述的是連續(xù)型數(shù)據(jù),而reads count數(shù)據(jù)是離散的;其次reads count數(shù)據(jù)的取值只能為非負(fù)整數(shù)。經(jīng)過(guò)不斷的嘗試,ZINB被證明是一種可以較好的描述scRNA-seq數(shù)據(jù)的模型,并且作為一些更advanced的模型的基礎(chǔ)比如SAVER,scVI等。下面我們來(lái)看這個(gè)模型的細(xì)節(jié)。
1 Poisson Distribution
基于reads count數(shù)據(jù)的取值均為非負(fù)整數(shù)的特點(diǎn),一個(gè)直觀(guān)的想法就是用泊松分布來(lái)擬合scRNA-seq數(shù)據(jù)。泊松分布的定義如下:
這里X即為gene在細(xì)胞內(nèi)的表達(dá)水平(reads count的數(shù)值)。但是用泊松分布來(lái)描述scRNA-seq數(shù)據(jù)面臨了一個(gè)新的問(wèn)題。我們都知道,泊松分布的期望和方差是相等的,即:
但是對(duì)于實(shí)際的數(shù)據(jù)來(lái)說(shuō),隨著gene的平均表達(dá)水平越高,其樣本方差與樣本均值的差越大,也即scRNA-seq數(shù)據(jù)的另一個(gè)特點(diǎn)——over-dispersion。我們用一張圖來(lái)舉例說(shuō)明

如圖所示,直線(xiàn)(y = x)為基于泊松分布的假設(shè)下,基因表達(dá)的理論均值與方差的關(guān)系,可以看到對(duì)于每一種基因,其理論均值與方差相同。而直線(xiàn)之上的部分體現(xiàn)了實(shí)際數(shù)據(jù)中,基因表達(dá)的樣本均值與樣本方差的關(guān)系,我們看到,隨著基因表達(dá)樣本均值的增大,基因表達(dá)的樣本方差與均值的差越來(lái)越大,不符合泊松分布的性質(zhì)。
2 Gamma Distribution
對(duì)于泊松分布來(lái)說(shuō),是固定不變的,如果我們給
一個(gè)prior呢。 我們關(guān)于prior的選擇是Gamma分布。而選擇Gamma分布作為
的prior在生物學(xué)含義上似乎沒(méi)有比較直觀(guān)的解釋?zhuān)ㄆ鋵?shí)是我自己沒(méi)搞懂hhh),但是從統(tǒng)計(jì)觀(guān)點(diǎn)看,Gamma分布是泊松分布的共軛先驗(yàn)(conjugate prior),會(huì)使得計(jì)算posterior非常方便。
Gamma分布的定義如下:
3 Negative Binomial Distribution
上述問(wèn)題現(xiàn)在匯總為:
證明X服從負(fù)二項(xiàng)分布:
根據(jù)上述證明,X服從負(fù)二項(xiàng)分布。但是新的問(wèn)題接著產(chǎn)生,在產(chǎn)生數(shù)據(jù)的過(guò)程中,由于一些technical noises(比如某段RNA沒(méi)有能夠被逆轉(zhuǎn)錄)和intrinsic biological variability會(huì)導(dǎo)致數(shù)據(jù)中0的比例非常高,這也就是所謂的zero inflation。于是人們?cè)贜B的基礎(chǔ)上,進(jìn)一步發(fā)展出了ZINB。
4 Zero-inflated Negative Binomial
為ZINB的概率質(zhì)量函數(shù)
其中為Dirac function,
可以視為真實(shí)的基因表達(dá)值被觀(guān)測(cè)為0的概率。至此,整個(gè)ZINB模型被完整的建立起來(lái)。除了以上這種利用Poisson和Gamma mixture構(gòu)造NB的方法外,也有人通過(guò)NB的兩個(gè)參數(shù)mean
和inverse dispersion parameter
構(gòu)造NB,即
5 Zero-inflated? (UMI based or read based).
已經(jīng)有很多工作證明了對(duì)于UMI based sequencing來(lái)說(shuō), NB其實(shí)可以很好的刻畫(huà)scRNA-seq data(可以參考Nancy Zhang的SAVER)。所以到底用ZINB還是NB還是要取決于測(cè)序的技術(shù)。不過(guò)目前大部分測(cè)序都是UMI-based了,所以NB可能會(huì)成為更general的選擇。
Reference:
https://en.wikipedia.org/wiki/Poisson_distribution
https://en.wikipedia.org/wiki/Dirac_delta_function
https://en.wikipedia.org/wiki/Gamma_distribution
https://en.wikipedia.org/wiki/Negative_binomial_distribution
https://gregorygundersen.com/blog/2019/09/16/poisson-gamma-nb/
https://zhuanlan.zhihu.com/p/95299303