ZINB(Zero-inflated Negative Binomial)

單細(xì)胞RNA測(cè)序(single-cell RNA-seq,scRNA-seq)數(shù)據(jù)是非常有特點(diǎn)的數(shù)據(jù),具有很高的稀疏性(high sparsity),具體表現(xiàn)為0非常多(zero inflation)。對(duì)于數(shù)據(jù)的分布給出合理的假設(shè)是非常關(guān)鍵的工作,是downstream analysis的基礎(chǔ)。顯然對(duì)于scRNA-seq的reads count數(shù)據(jù),最常用的正態(tài)分布是不合理的。首先正態(tài)分布描述的是連續(xù)型數(shù)據(jù),而reads count數(shù)據(jù)是離散的;其次reads count數(shù)據(jù)的取值只能為非負(fù)整數(shù)。經(jīng)過(guò)不斷的嘗試,ZINB被證明是一種可以較好的描述scRNA-seq數(shù)據(jù)的模型,并且作為一些更advanced的模型的基礎(chǔ)比如SAVER,scVI等。下面我們來(lái)看這個(gè)模型的細(xì)節(jié)。

1 Poisson Distribution

基于reads count數(shù)據(jù)的取值均為非負(fù)整數(shù)的特點(diǎn),一個(gè)直觀(guān)的想法就是用泊松分布來(lái)擬合scRNA-seq數(shù)據(jù)。泊松分布的定義如下:
f(k ; \lambda)=\operatorname{Pr}(X=k)=\frac{\lambda^{k} e^{-\lambda}}{k !} , \lambda > 0
這里X即為gene在細(xì)胞內(nèi)的表達(dá)水平(reads count的數(shù)值)。但是用泊松分布來(lái)描述scRNA-seq數(shù)據(jù)面臨了一個(gè)新的問(wèn)題。我們都知道,泊松分布的期望和方差是相等的,即:
E(X) = Var(X) = \lambda
但是對(duì)于實(shí)際的數(shù)據(jù)來(lái)說(shuō),隨著gene的平均表達(dá)水平越高,其樣本方差與樣本均值的差越大,也即scRNA-seq數(shù)據(jù)的另一個(gè)特點(diǎn)——over-dispersion。我們用一張圖來(lái)舉例說(shuō)明

example.jpg

如圖所示,直線(xiàn)(y = x)為基于泊松分布的假設(shè)下,基因表達(dá)的理論均值與方差的關(guān)系,可以看到對(duì)于每一種基因,其理論均值與方差相同。而直線(xiàn)之上的部分體現(xiàn)了實(shí)際數(shù)據(jù)中,基因表達(dá)的樣本均值與樣本方差的關(guān)系,我們看到,隨著基因表達(dá)樣本均值的增大,基因表達(dá)的樣本方差與均值的差越來(lái)越大,不符合泊松分布的性質(zhì)。

2 Gamma Distribution

對(duì)于泊松分布來(lái)說(shuō),\lambda是固定不變的,如果我們給\lambda一個(gè)prior呢。 我們關(guān)于prior的選擇是Gamma分布。而選擇Gamma分布作為\lambda的prior在生物學(xué)含義上似乎沒(méi)有比較直觀(guān)的解釋?zhuān)ㄆ鋵?shí)是我自己沒(méi)搞懂hhh),但是從統(tǒng)計(jì)觀(guān)點(diǎn)看,Gamma分布是泊松分布的共軛先驗(yàn)(conjugate prior),會(huì)使得計(jì)算posterior非常方便。

Gamma分布的定義如下:
f(x ; \alpha, \beta)=\frac{\beta^{\alpha} x^{\alpha-1} e^{-\beta x}}{\Gamma(\alpha)} \quad \text { for } x>0 \quad \alpha, \beta>0

3 Negative Binomial Distribution

上述問(wèn)題現(xiàn)在匯總為:
X \sim Poisson(\lambda) , \lambda > 0
\lambda \sim Gamma(r, \frac{1 - p}{p}) , r > 0, 0 < p < 1
證明X服從負(fù)二項(xiàng)分布:
\begin{aligned} P(X = x) &=\int_{0}^{\infty} P(x \mid \lambda) P( \lambda) d \lambda \\ &=\int_{0}^{\infty} \frac{{\lambda}^{x} e^{-\lambda}}{x !} \frac{\left(\frac{1-p}{P}\right)^{r}}{\Gamma(r)} \lambda^{r-1} e^{-\frac{\lambda (1 - p)}{p}} d \lambda \\ &=\frac{\left(\frac{1-p}{p}\right)^{r} }{x ! \Gamma(r)} \int_{0}^{\infty} \lambda^{x+r-1} e^{-\frac{\lambda}{p}} d \lambda \\ &=\frac{\left(\frac{1-p}{p}\right)^{r}}{x ! \Gamma(r)}(p)^{x+r} \Gamma(x+r) \\ &=\frac{\Gamma(x+r)}{\Gamma(r) x !}(1-p)^{r} p^{x} \\ &=\frac{(x+r-1) !}{(r-1) ! x !} p^{x}(1-p)^{r} \\ &=NB(r, p) \end{aligned}
根據(jù)上述證明,X服從負(fù)二項(xiàng)分布。但是新的問(wèn)題接著產(chǎn)生,在產(chǎn)生數(shù)據(jù)的過(guò)程中,由于一些technical noises(比如某段RNA沒(méi)有能夠被逆轉(zhuǎn)錄)和intrinsic biological variability會(huì)導(dǎo)致數(shù)據(jù)中0的比例非常高,這也就是所謂的zero inflation。于是人們?cè)贜B的基礎(chǔ)上,進(jìn)一步發(fā)展出了ZINB。

4 Zero-inflated Negative Binomial

\forall \pi \in [0,1], f_{\mathrm{ZINB}}(\mathrm{x} ; r, p, \pi)為ZINB的概率質(zhì)量函數(shù)
f_{\mathrm{ZINB}}(\mathrm{x} ; r, p, \pi)=\pi \delta_{0}(\mathrm{x})+(1-\pi) f_{N B}(\mathrm{x} ; r, p)
其中\delta_{0}為Dirac function,\pi可以視為真實(shí)的基因表達(dá)值被觀(guān)測(cè)為0的概率。至此,整個(gè)ZINB模型被完整的建立起來(lái)。除了以上這種利用Poisson和Gamma mixture構(gòu)造NB的方法外,也有人通過(guò)NB的兩個(gè)參數(shù)mean \mu和inverse dispersion parameter\sigma構(gòu)造NB,即
f_{\mathrm{NB}}(y ; \mu, \theta)=\frac{(y+\theta)}{(y+1)(\theta)}\left(\frac{\theta}{\theta+\mu}\right)^{\theta}\left(\frac{\mu}{\mu+\theta}\right)^{y}, \quad \forall y \in \mathbb{N}

5 Zero-inflated? (UMI based or read based).

已經(jīng)有很多工作證明了對(duì)于UMI based sequencing來(lái)說(shuō), NB其實(shí)可以很好的刻畫(huà)scRNA-seq data(可以參考Nancy Zhang的SAVER)。所以到底用ZINB還是NB還是要取決于測(cè)序的技術(shù)。不過(guò)目前大部分測(cè)序都是UMI-based了,所以NB可能會(huì)成為更general的選擇。

Reference:
https://en.wikipedia.org/wiki/Poisson_distribution
https://en.wikipedia.org/wiki/Dirac_delta_function
https://en.wikipedia.org/wiki/Gamma_distribution
https://en.wikipedia.org/wiki/Negative_binomial_distribution
https://gregorygundersen.com/blog/2019/09/16/poisson-gamma-nb/
https://zhuanlan.zhihu.com/p/95299303

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容