我為什么不用ANOVA?

因為它很局限。

ANOVA(Analysis of variance)是Fisher在1918年發(fā)明的一種方差分析方法[1]。因為我們多數(shù)人在數(shù)理統(tǒng)計入門時重點學習過,所以最常使用。ANOVA有三大要求,使用前要逐一檢驗:

  1. 數(shù)據平衡(沒有缺失值);
  2. 響應變量服從正態(tài)分布;
  3. 方差齊次(處理內不同水平的方差要相等)。

一旦不滿足條件需要:

  1. 填補缺失值;
  2. 轉換以服從正態(tài);
  3. 方差不齊怎么弄(就這么著吧)。

第一條沒有問題。第二條,響應變量服從正態(tài)分布才是合理的,圖1,舉例,前3列是一個處理的3個水平,單獨時都服從正態(tài),但混合分布(4列)就不是正態(tài),而混合變量就是我們通常進行檢驗的響應變量。要清楚,無論什么轉換,轉換后怎么服從正態(tài),根上就不對。第3條,方差不齊很常見,但似乎沒有合適的方法來解決。

圖1. 混合分布的正態(tài)性

如果以上3個條件都滿足,那么用ANOVA是沒有問題的,得到的結果和線性模型的是一致的。這里我總結了ANOVA和線性模型的關系(圖2)。ANOVA在最小枝,可見有多么局限。

圖2. GLMM廣義線性混合模型。變量類型粗略分為連續(xù)和不連續(xù)2種

下面說一下線性模型的相對優(yōu)勢,它是怎么解決ANOVA的3大局限的。線性模型一般寫成這樣:

y=Xb+Zu+e

y是響應變量,b是固定效應,ue是隨機的隨機效應和殘差;X和Z是固定和隨機效應的關聯(lián)矩陣。

線性模型的條件是ue服從均值為0的正態(tài)分布??匆姏],沒有對y有任何限制。針對ANOVA的第2條。
方差不齊怎么辦?把效應u結構化。什么意思呢?比如ANOVA要求水平1和水平2的方差相等:\sigma_{l1}^2==\sigma_{l2}^2,如果不等的話就用一個對角矩陣
G=\sigma^2 I=\left[\begin{array}{c} \sigma_{l1}^2 I&0\\ 0&\sigma_{l2}^2 I\\ \end{array} \right]
分別估計出每個水平的方差,這就是對效應u的結構化。這樣就解決了ANOVA的第3條限制。

哪些軟件能擬合線性模型?圖2里有。
如發(fā)現(xiàn)問題歡迎指正!


參考:許世忠教授的講義。


  1. https://en.wikipedia.org/wiki/Analysis_of_variance ?

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內容