6 Theoretical, Permutation, and Empirical Null Distributions

(不知道怎么翻譯標題好了……)
在經(jīng)典的假設檢驗中,零假設的分布是魔鬼的代言人:觀察值必須超過的標準,以使科學界相信發(fā)生了一些有趣的事情(比如在零假設分布中超過1.96的中心距)。

第3章可以看出,學術(shù)界之前已經(jīng)付出了很多努力使經(jīng)典模型可適用于大規(guī)模推斷場景。但當N特別大時,一些不同點讓零假設分布的角色發(fā)生了變化:

  • 例如當N = 10000時…顯然基于經(jīng)典零假設分布的模型不適合當前場景;
  • 單假設檢驗場景下,常常希望拒絕零假設的power是80%。大規(guī)模推斷場景下,研究者希望絕大多數(shù)假設接受零假設,僅僅保留少數(shù)有意思的點;
  • 零假設分布的形狀(比如\mu\sim N(0, \sigma^2)),在大規(guī)模推斷中相對沒那么重要。N中大部分case會有一個很小的非零\mu。這擴寬了經(jīng)典零假設;
  • 大規(guī)模的研究中允許經(jīng)驗貝葉斯分析,這會讓零假設和備擇假設混在一起;
  • 大規(guī)模的研究中estimation和testing間的線變得模糊。

在之前的例子中,理論上的零假設分布表現(xiàn)的不錯,這并不是常見的。例如在下面四個案例中就有嚴重問題,后續(xù)會基于這四個案例討論。

6.1 四個案例

下面的圖示中展示了以下信息:

  • N個case的直方圖;
  • \pi_0的估計值\hat{\pi}_{00}(按第四章的方法,取\alpha_0為0.5),理論零分布取f_0(z) \sim N(0,1)
  • 按后面6.3方法估計的(\hat{\delta}_0, \hat{\sigma}_0, \hat{\pi}_0),零分布模型是\hat{f}_0(z) \sim N(\hat{\delta}_0, \hat{\pi}_0)
  • 粗實線代表經(jīng)驗分布;
  • 一條輕的點曲線成比例于\hat{\pi}_{00} * \varphi(z),其中\varphi(z) = exp\{ -\frac{1}{2}*z^2 \} / \sqrt{2 * \pi};
  • x軸上的小三角標注出按經(jīng)驗分布評估的fdr小于等于0.2的閾值,混合分布評估采用的是前一章的方法;
  • x軸下的小紅線標出通過fdr過濾的z值;
  • 通過過濾的z值數(shù)量。

A. 白血病的研究

高密度寡核苷酸微陣列:N=7128對基因,供72個病人參與研究,其中n_1 = 45個ALL(急性淋巴細胞白血病),其中n_2 = 27個AML(急性髓性白血病),后者更加嚴重。
原始陣列已經(jīng)轉(zhuǎn)換為了一個normal score:
x_{ij} = \Phi^{-1}(\frac{rank(X_{ij})-0.5}{N})
其中X_{ij}代表j個病人的i基因,rank(X_{ij})代表X_{ij}在N中的排名。Z值來自ALL和AML的雙樣本t檢驗。
圖中經(jīng)驗零分布為N(0.09, 1.68*2)\hat{\pi}_0 = 0.937,其中173個基因的\hat{fdr}(z) \leq 20%
理論零分布為N(0,1),對應的\pi_{00}是0.654,有1548的\hat{fdr}(z) \leq 20%。也許(1 - \pi_{00}) * N = 2464個基因會不同,但更大可能是理論上的零分布不合時宜。

B. 卡方數(shù)據(jù)

本實驗研究了N = 16 882個基因中某些化學標簽在位點的結(jié)合。每個基因的 K 位點數(shù)從三個到幾百個不等,中位數(shù)K=12。在每個基因內(nèi)的每個位點,對結(jié)合標簽的數(shù)量進行計數(shù)。計數(shù)是在兩種不同的實驗條件下進行的,研究的目的是識別兩種條件下標簽比例不同的基因。
下表中統(tǒng)計了兩組方案中第一個K點數(shù)量的分布。


i基因?qū)?img class="math-inline" src="https://math.jianshu.com/math?formula=z_i" alt="z_i" mathimg="1">從table_i中算出:
(i) 按將表里每個cell進行計算;
(ii) 對表計算S_i——一個獨立情況下的卡方檢驗統(tǒng)計值;
(iii) 通過卡方統(tǒng)計值計算p值;
(iv) 轉(zhuǎn)化為z_iz_i = \Phi^{-1}(1- p_i)

方法中不需要標準卡方定義等檢驗統(tǒng)計量的經(jīng)典形式,但它們確實依賴于能夠用正態(tài)曲線逼近 z 值直方圖的中心。 這導致了同時推理中的可比性和相關(guān)性問題,會在第10章討論。

其經(jīng)驗零分布為N(0.32, 1.25^2),只有10個基因的預估fdr小于0.2。

C. 警方數(shù)據(jù)

2006年進行了一項關(guān)于紐約警察要求行人停止是否有種族歧視的研究。計算了N = 2749個警察的代表偏見程度的數(shù)值z_i。
定義x_{ij}是警官i在對j次停止的協(xié)變量。一個簡化的邏輯回歸模型是
logit\{ Pr(y_{ij} = 1)\} = \beta_i + \gamma'x_{ij}
其中y_{ij}代表被停止的人是不是少數(shù)族裔,\beta_i代表“警官效果”,\gamma是協(xié)變量的回歸系數(shù)向量。警察i的z值是
z_i = \hat{\beta}_i / se(\hat{\beta}_i)
其中\hat{\beta}_i是評估值,se(\hat{\beta}_i)\beta_i的標準誤。


這個例子中理論零假設與經(jīng)驗零假設有的結(jié)果有巨大差異。

D. HIV數(shù)據(jù)

n_1=4個健康人與n_2=4個HIV陽性者的N=7680個基因進行研究。通過雙樣本T檢驗計算p值,在轉(zhuǎn)換為正態(tài)情況下對應的z值。


這個例子的經(jīng)驗零假設比較接近理論零假設,\hat{f}_0(z) = N(0.12, 0.77^2),\hat{\pi}_0=0.949。
下面展示了一個人造的例子。
基于貝葉斯層次模型\mu \sim g(.)z|\mu \sim N(\mu, 1),此時對g選擇為
g(\mu) = 0.9*\varphi_{0,0.05}(\mu) + 0.1 * \varphi_{2.5,0.5}(\mu)
公式中\varphi_{a,b}代表N(a, b^2)分布的密度函數(shù)。
然后此時混合后z值得密度函數(shù)不是單峰的,如下圖

此時真正感興趣的部分應該是\mu>1.5的區(qū)間。
假設不知道它們的真實先驗,通過模擬數(shù)據(jù)估計會得到\hat{\pi}_0 = 0.93,\hat{f}_0(z) = N(0.02, 1.14^2)??梢约词共恢来_切先驗,通過觀測值估計,仍然能很好的找出感興趣的區(qū)域。

6.2 評估經(jīng)驗零假設

上面四個例子展示了理論零假設不太合理。經(jīng)驗零假設通過數(shù)據(jù)評估一個合適的零分布。零假設占比一般很高,設\pi_0 \leq 0.9,給了我們零分布的可能。
定義
f_{\pi_0}(z) = \pi_0f_0(z)

fdr(z) = f_{\pi_0}(z) / f(z)
如果設f_0(z)是正態(tài)分布,但不是標準正態(tài)分布:
f_0(z) \sim N(\delta_0, \sigma_0^2)
這會得到關(guān)于z值的二次函數(shù):
log(f_{\pi_0}(z)) = [log(\pi_0) - \frac{1}{2}\{ \frac{\delta_0^2}{\sigma^2_0} + log(2\pi\sigma^2_0)\}] + \frac{\delta_0}{\sigma_0^2} z- \frac{1}{2\sigma_0^2}z^2
通過Central matching法假設log(f(z))z=0附近是一個二次函數(shù)來評估f_0(z)\pi_0
log(f(z)) \doteq \beta_0 + \beta_1z + \beta_2 z^2
通過在z=0另附近的數(shù)量y_k來評估(\beta_0,\beta_1,\beta_2)并與原公式進行匹配:比如\sigma^2 = -1 / (2\beta_2)


上圖展示了HIV數(shù)據(jù)的計算。用前面5.2中的方法,通過中心附近的z值擬合(由于這區(qū)間內(nèi)\pi_1非常小,可以近似)。
顯然這個評估是有偏的,但是以下模型時(第二章提到的模型),效果近似于無偏:
\mu \sim g(.) \ and \ z|\mu \sim N(\mu, 1)
g(\mu) = \pi_0I_0(\mu) + \pi_1g_1(\mu)
通過以下模擬可以證明在\pi_0比較大時,通過上述方法可以得到很好的估計效果:
f_0(z) = \varphi(z)為標準正態(tài)分布,f_1(z) = \int_{-\infty }^{\infty}g(\mu)\varphi(z-\mu)d\mu和固定的\pi_0來模擬,根據(jù)觀測值評估的(\delta_0, \sigma_0)(\delta_g,\sigma_g)是central matching評估結(jié)果:
\delta_g = argmax\{ f(z) \}\ and \ \sigma_g = [-\frac{d^2}{dz^2}logf(z)]_{\delta_g} ^ {-\frac{1}{2}}
可以對比(\delta_g,\sigma_g)與真實值(0,1)差多少。對指定\pi_0,定義評估最差的情況:
\delta_{max} = max\{ |\delta_g| \}\ and\ \sigma_{max} = max\{ \sigma_g\}
根據(jù)下表結(jié)果可知在\pi_0>=0.9的情況下,central matching評估的偏差不嚴重。


上圖以\delta_{max}\sigma_{max}作為\pi_1 = 1 - \pi_0的函數(shù)進行了展示。圖中還畫出了限制了g_1在0處對稱、對稱且正態(tài)時的情況。
locfdr包中默認使用的是MLE方法,而不是central matching。因為中心直方圖中的輕微不規(guī)則性,可能會破壞中心匹配。MLE更穩(wěn)定,但是可能增大bias。

6.3 MLE經(jīng)驗零分布

MLE是一種更直接的方式?;谡J為落在中心幾乎全是零假設的z值集合評估(\hat{\delta}_0,\hat{\sigma}_0,\hat{\pi}_0 )。相比上一節(jié)的方法,波動性更小但更容易偏差。
全集為z = (z_1,z_2,...,z_N),N_0是選中的集合,I_0是他們的索引:
I_0 = \{ i:z_i \in \mathcal A_0\}\ \ and \ N_0 = \#I_0\ and \ z_0 = \{ z_i, i \in I_0\}
并且\varphi_{\delta_0, \sigma_0}(z)N(\delta_0, \sigma_0)的密度函數(shù),則落入?yún)^(qū)域的概率為
H_0(\delta_0, \sigma_0) \equiv \int_{ \mathcal A_0}\varphi_{\delta_0, \sigma_0}(z)dz
假設z值獨立且來自wo-groups模型:f_0 \sim N(\delta_0, \sigma_0),f_1(z) = 0\ for\ z \in \mathcal A_0。
z_0的似然函數(shù)為:
f_{\delta_0, \sigma_0,\pi_0}(z_0) = [\binom{N}{N_0}\theta^{N_0}(1 - \theta)^{N-N0}][\prod _{I_0}\frac{\varphi_{\delta_0, \sigma_0}(z)}{H_0(\delta_0, \sigma_0)}]
其中\theta = \pi_0H_0(\delta_0, \sigma_0) = Pr\{ z_i \in \mathcal A_0\}


下表是一個蒙特卡洛模擬結(jié)果

通過上表可知,MLE方法相比CM方法有更小的標準差,但是偏差更大(模擬的\delta_0=-0.125),特別是\pi_0。
其中\theta的估計值是N_0/N\delta\sigma的估計值通過MLE得到,因此可計算得到
\hat{\pi}_0 = \hat{\theta} / H_0(\hat{\delta}_0, \hat{\sigma}_0)

6.4 為何理論零假設失效

控制Fdr的關(guān)注點,是找到可以控制的中心距,而不是N(0,1)相對的距離。以下是無法使用N(0,1)的常見原因:

(I) 違背了數(shù)學假設

比如雙樣本t檢驗,常常假設樣本來自獨立同分布的正態(tài)分布;

(II) 隨機單元之間的聯(lián)系

不像雙樣本隨機實驗可以保證隨機采樣,很多情況下是自然實驗;

(III) 檢驗結(jié)果之間的相關(guān)性

即使每個z值服從標準正態(tài)分布,但是z值之間的相關(guān)性導致理想零分布無法控制錯誤發(fā)現(xiàn)率。
下面是一個模擬的例子,零分布的z值具有相關(guān)性,導致通過理論零假設控制Fdr時的效果較差。


(IV) 未觀測到的協(xié)變量

比如白血病的研究并不是一個隨機實驗, AML/ALL是通過觀測區(qū)分的,還有其它未觀測的協(xié)變量比如年齡、性別、健康程度等等,它們也會影響結(jié)果。

6.5 置換零分布

置換技術(shù)介于理論零分布與經(jīng)驗零分布之間,但更偏向于前者。
將原來的兩組打散,再隨機分組,并產(chǎn)生B組結(jié)果,得到一個N*B的矩陣:
Z^* = (z^{*1}, z^{*2},...,z^{*B})
此時一般的置換零分布為:
\hat{f}^{perm}_0 = N · B個z_i^{*b}值的經(jīng)驗分布


置換的零分布也會出現(xiàn)失效的情況??紤]以下幾點:

  • 對于上一節(jié)的4種理論零假設失效的場景,置換零分布可以很好的適用于(I),因為它是基于隨機排列模擬的
  • 無法解決(II),重排列基于假設樣本間獨立
  • 無法解決(IV);
  • 置換方法的一個優(yōu)點是它們保留了案例之間的相關(guān)性,然而無助于場景(III);
  • 事實上置換零分布會分非常接近N(0,1);
  • 置換方法和經(jīng)驗方法可以結(jié)合;
  • 置換方法不僅局限于兩個分組的場景。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容