
如果研究X對于Y的影響,Y是計(jì)數(shù)資料,一般可以使用Poisson回歸進(jìn)行研究。但是Poisson回歸要求數(shù)據(jù)滿足等離散現(xiàn)象(平均值與方差相等),如果說數(shù)據(jù)具有一定的聚焦性,此時(shí)很可能就會產(chǎn)生過離散現(xiàn)象,即數(shù)據(jù)平均值與方差明顯不相等。此時(shí)使用負(fù)二項(xiàng)回歸更為科學(xué)。
比如研究傳染病人數(shù),傳染病人數(shù)明顯具有一些空間聚焦現(xiàn)象;以及專利數(shù)量,很可能企業(yè)之間存在著某種空間意義上的競爭,導(dǎo)致數(shù)據(jù)具有聚焦現(xiàn)象,諸如此類數(shù)據(jù)其并不滿足Poisson分布的獨(dú)立性原則。此類數(shù)據(jù)通常情況下方差會明顯的大于平均值,屬于過離散數(shù)據(jù),此種數(shù)據(jù)在進(jìn)行Poisson回歸時(shí)會導(dǎo)致模型參數(shù)估計(jì)值的標(biāo)準(zhǔn)誤偏小
因而,如果計(jì)數(shù)資料不適合Poisson分布時(shí),尤其是數(shù)據(jù)過離散時(shí),此時(shí)使用負(fù)二項(xiàng)回歸分析更合適。
1、案例背景
當(dāng)前有一項(xiàng)針對專利數(shù)量的影響關(guān)系研究,研究政府對于企業(yè)的支持力度,是否一線城市,對于企業(yè)專利數(shù)量的影響情況。共收集10個(gè)城市的數(shù)據(jù),如下:

X1是否一線城市:數(shù)字1表示為一線城市,數(shù)字0表示非一線城市
X2政府扶持力度:數(shù)字越大表示對于企業(yè)申請專利時(shí)的扶持力度越大
Y專利數(shù)量:數(shù)字表示某城市調(diào)研所有企業(yè)申請成功的專利數(shù)量
Weight企業(yè)數(shù)量:數(shù)字表示某城市調(diào)研的企業(yè)數(shù)量
2、理論
關(guān)于過離散的檢驗(yàn)有很多檢驗(yàn)方法,在SPSSAU系統(tǒng)中可有三種方式進(jìn)行綜合判斷,分別如下:
如果說描述分析時(shí)發(fā)現(xiàn)平均值與方差值有著較大的差異,則說明負(fù)二項(xiàng)回歸較合理,如果說平均值與方差值基本相等,說明可能使用Poisson回歸較為合適。
過離散現(xiàn)象可通過O檢驗(yàn)(在Poisson回歸分析時(shí)SPSSAU默認(rèn)有提供)
過離散現(xiàn)象的檢驗(yàn)可針對alpha值進(jìn)行檢驗(yàn),在負(fù)二項(xiàng)回歸時(shí)默認(rèn)輸出,如果alpha值顯著不為0(對應(yīng)的P值小于0.05),則說明使用負(fù)二項(xiàng)回歸較為合理,反之則說明可能使用Poisson回歸較優(yōu)。
3、操作
登錄SPSSAU,選擇【實(shí)驗(yàn)/醫(yī)學(xué)研究】--【負(fù)二項(xiàng)回歸】。

本例子中專利數(shù)量是基于‘Weight企業(yè)數(shù)量’,因此‘基數(shù)Eposure【可選】’框中應(yīng)該放入‘Weight企業(yè)數(shù)量’這項(xiàng),如下圖:

4、SPSSAU結(jié)果分析
(1)過度離散檢驗(yàn)

在進(jìn)行負(fù)二項(xiàng)回歸之前,專利數(shù)量的平均值是56.500,方差是2480.944,明顯平均值與方差不相等,存在過離散現(xiàn)象。而且使用SPSSAU的Poisson回歸時(shí),對其提供的O檢驗(yàn)發(fā)現(xiàn),O值明顯大于1.96(p=0.000 <0.05),拒絕等離散假定,說明數(shù)據(jù)存在明顯的過離散現(xiàn)象,因此使用負(fù)二項(xiàng)回歸較為適合。
(2)負(fù)二項(xiàng)回歸模型似然比檢驗(yàn)
SPSSAU共輸出兩個(gè)表格,分別是“負(fù)二項(xiàng)回歸模型似然比檢驗(yàn)”,“負(fù)二項(xiàng)回歸分析結(jié)果匯總”。 “負(fù)二項(xiàng)回歸模型似然比檢驗(yàn)”是針對整個(gè)模型的檢驗(yàn),如果說模型p值小于0.05,意味著放入自變量更優(yōu),即模型有意義?!柏?fù)二項(xiàng)回歸分析結(jié)果匯總”是回歸結(jié)果的具體結(jié)果。

模型似然比檢驗(yàn)用于對整體模型有效性進(jìn)行分析。
第一:首先對p值進(jìn)行分析,如果該值小于0.05,則說明模型有效;反之則說明模型無效;
第二:AIC值和BIC值可用于多次分析模型時(shí)的對比;此兩個(gè)值越低越好;如果多次進(jìn)行分析,對比該兩個(gè)值的變化情況,綜合說明模型構(gòu)建的優(yōu)化過程;
首先對模型整體有效性進(jìn)行分析,模型檢驗(yàn)的原定假設(shè)為:是否放入自變量(X1是否一線城市, X2政府扶持力度)兩種情況時(shí)模型質(zhì)量均一樣;檢驗(yàn)p值為0.000小于0.05,因而說明拒絕原定假設(shè),即說明本次構(gòu)建模型時(shí),放入的自變量具有有效性,本次模型構(gòu)建有意義。
(3)負(fù)二項(xiàng)回歸分析結(jié)果匯總表

從上表可知,將X1是否一線城市, X2政府扶持力度共2項(xiàng)為自變量,而將Y專利數(shù)量作為因變量進(jìn)行負(fù)二項(xiàng)回歸分析,從上表可以看出,模型公式為:Log(Y)=-10.316 + 0.213*X1是否一線城市 + 0.680*X2政府扶持力度 + ln(Weight企業(yè)數(shù)量)。模型的偽R方值(McFadden R 方)為0.196,說明研究模型可以解決專利數(shù)量19.6%的原因。
具體分析可知:
X1是否一線城市的回歸系數(shù)值為0.213,但是并沒有呈現(xiàn)出顯著性(z=0.462,p=0.644>0.05),意味著X1是否一線城市并不會對Y專利數(shù)量產(chǎn)生影響關(guān)系,即城市類別與專利數(shù)量無明顯關(guān)系。
X2政府扶持力度的回歸系數(shù)值為0.680,并且呈現(xiàn)出0.01水平的顯著性(z=6.490,p=0.000 <0.01),意味著X2政府扶持力度會對Y專利數(shù)量產(chǎn)生顯著的正向影響關(guān)系,以及優(yōu)勢比(OR值, exp(b)值)為1.973,意味著X2政府扶持力度增加一個(gè)單位時(shí),Y專利數(shù)量的增加幅度為1.973倍。
「更多內(nèi)容搜索SPSSAU了解」