統(tǒng)計學(xué)(50)-多水平模型

多水平模型打破“獨立”條件
廣義線性模型除要滿足“線性”這一條件外,還有一個重要的條件就是“獨立性" 。如果不滿足線性條件,可以考慮廣義可加模型;如果不滿足獨立性條件,則可以考慮多水平模型(Multilevel Model)。

1、什么是多水平?
image.png

(1)不難理解,所謂多水平數(shù)據(jù),也就是自然形成的層次數(shù)據(jù)。
(2)在多水平數(shù)據(jù)中,最低層次稱為水平1, 往上依次稱為水平2 、水平3。如村民是水平1單位,村是水平2單位, 縣是水平3單位。

2、多水平數(shù)據(jù)的非獨立性

(1)調(diào)查30個村,每個村調(diào)查100人的飲食情況,對于每個村內(nèi)的村民而言,他們很可能有類似的飲食習(xí)慣(如都喜歡吃咸),從而可認(rèn)為村內(nèi)的村民之間并不是獨立的。
(2)觀察60人,每人觀測5個時間點,了解他們的血壓值情況,對于同一個人而言,在5個時間點的血壓值應(yīng)該是差不多的,不會有太大的波動,從而可認(rèn)為每個人的不同時間的觀測值并不是獨立的。

3、多水平模型的不同叫法

多水平模型在不同領(lǐng)域有不同的稱謂,如分層線性模型(Hierarchical Linear Model) 、混合效應(yīng)模型(Mixed Effect Model) 、隨機(jī)效應(yīng)模型(Random Effect Model) 、隨機(jī)系數(shù)模型(Random Coefficient Model) 、方差成
分模型(Variance Component Model) 等,其實表達(dá)的意思都差不多,都是處理多水平數(shù)據(jù)的模型。

3、多水平模型的思想

(1)多水平模型的思想要稍微復(fù)雜一些,因為它同時包含了多個水平的數(shù)據(jù),從而在多個水平上都存在殘差??偟膩碚f,其思想就是把高水平上的差異估計出來(傳統(tǒng)的線性模型不考慮這一差異,將其放到了殘差中),這就使得殘差變小,估計的結(jié)果更為可靠。
(2)雖然理論上多水平模型可以有多個層次,但實際中最常用的是二水平模型。

4、一個例子-二水平模型

下表是12名兒童在30 、36 、42 、48個月時認(rèn)知能力得分的測量結(jié)果(認(rèn)知能力得分),目的是想了解年齡對認(rèn)知能力得分是否有影響。(只標(biāo)注出一部分)

image.png

該數(shù)據(jù)是一份二水平數(shù)據(jù),其中兒童個體為水平2單位,測量的時間點為水平1單位。
如果用常規(guī)的線性模型擬合,就是將所有的48個數(shù)據(jù)建立線性模型。
image.png

(1)這個模型是將12名兒童的數(shù)據(jù)合起來建立的,因此有時也稱合并模型(Pooled Model)。
它暗含了一個假定條件:12 名兒童的認(rèn)知能力得分隨年齡變化的截距和斜率都是相同的,而實際上卻未必如此。(類似于4個社區(qū)SO2的統(tǒng)計結(jié)果)
(2)12 名兒童的認(rèn)知能力得分隨年齡的變化情況,可以看出,有的是隨年齡增長,有的則是隨年齡降低;即使在增長的兒童中,其增長速度也各不相同,有的增長快,有的增長慢。
(3)也就是說,每個人(水平2單位)的認(rèn)知能力得分隨年齡的變化可能有不同的截距和斜率,而傳統(tǒng)線性模型則忽略了水平2單位上的差異。那么,既然它沒有考慮到水平2單位上的差異,而水平2單位又確實存在差異,那這一差異去哪兒了呢?被線性模型歸到誤差中去了,
image.png

從而導(dǎo)致誤差增大。
(4)怎樣找出這種差異呢?
很自然的一個想法是利用虛擬變量回歸,將12 名兒童的認(rèn)知能力得分隨年齡變化的截距差異和斜率差異估計出來,這樣就可以反映出水平2 單位之間的差異,這種方法一般稱為固定效應(yīng)模型(Fixed Effect Model)。
但是固定效應(yīng)模型有一個問題: 12名兒童就需要估計11個虛擬變量,當(dāng)水平2單位更多的時候(如120名兒童),需要估計的參數(shù)太多,用虛擬變量就會消耗太多的自由度,估計結(jié)果不可靠,而且也沒什么實際意義。因為我們并不關(guān)注具體誰和誰之間的差異有多大,我們只要知道這些兒童之間總的有多大差異就行了。這時候用固定效應(yīng)模型就不大合適,而應(yīng)采用隨機(jī)效應(yīng)模型(Random Effect Model), 也就是多水平模型。
(5)多水平模型
多水平模型是把水平2單位看作從一個更大的總體中隨機(jī)抽樣的個體,個體之間的差異是服從某種特定分布(如正態(tài)分布)的隨機(jī)變動。這樣,我們只要把這種分布的均數(shù)和方差估計出來,就可以反映出這些水平2 單位圍繞均值的波動大?。ㄗ儺惔笮。?。不管是12人還是1200人,都只需要一個均值和方差便可以描述其變異大小。

5、多水平模型的分類

多水平模型根據(jù)實際情況一般可分為兩大類:隨機(jī)截距模型和隨機(jī)斜率模型。
(1)隨機(jī)截距模型
這種模型假定水平2 單位之間僅截距不同,斜率是相同的。如下圖12名兒童的認(rèn)知能力得分隨年齡變化的斜率都相同,但截距不同。


image.png

(2)隨機(jī)斜率模型
這種模型假定水平2 單位之間不僅截距不同,而且斜率也不同。下圖12 名兒童的認(rèn)知能力得分隨年齡變化的截距和斜率都不同。


image.png

上述兩類模型不做具體分析,只把握其思想,后續(xù)具體問題具體分析。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容