Logistic回歸分析之二元Logistic回歸

在研究X對于Y的影響時,如果Y為定量數(shù)據(jù),那么使用多元線性回歸分析(SPSSAU通用方法里面的線性回歸);如果Y為定類數(shù)據(jù),那么使用Logistic回歸分析。

結(jié)合實際情況,可以將Logistic回歸分析分為3類,分別是二元Logistic回歸分析、多元有序Logistic回歸分析和多元無序Logistic回歸分析,如下圖。

Logistic回歸分析用于研究X對Y的影響,并且對X的數(shù)據(jù)類型沒有要求,X可以為定類數(shù)據(jù),也可以為定量數(shù)據(jù),但要求Y必須為定類數(shù)據(jù),并且根據(jù)Y的選項數(shù),使用相應(yīng)的數(shù)據(jù)分析方法。

?

本次內(nèi)容將針對二元logistic(logit)回歸進行說明,后續(xù)兩篇文章將分別講解有序logistic(logit)和多分類logistic(logit)回歸。

?

1、二元logistic分析思路說明

在進行二元Logistic回歸分析時,通常會涉及3個步驟,分別是數(shù)據(jù)處理、卡方分析和影響關(guān)系研究,如下圖。

?

1.1 第一步為數(shù)據(jù)處理

例如,在研究相關(guān)因素對樣本將來是否愿意購買理財產(chǎn)品的影響情況時,性別,專業(yè)等均為影響因素,而且明顯的,性別和專業(yè)屬于定類數(shù)據(jù),因此需要進行虛擬啞變量設(shè)置,可使用【數(shù)據(jù)處理->生成變量】完成。

?

除此之外,二元logistic回歸要求因變量只能為2項,而且數(shù)字一定是0和1,數(shù)字1表示YES,愿意,購買,患病等,數(shù)字0表示no,不愿意,不購買,不患病等。如果不是這樣,那么就需要針對因變量Y進行數(shù)據(jù)編碼,使用【數(shù)據(jù)處理->數(shù)據(jù)編碼】即可完成。

?

1.2 第二步為卡方分析或方差分析

此步不是必需的步驟,通過此步可以試探性了解每個影響因素X與Y之間的影響關(guān)系情況,研究影響關(guān)系前,首先需要自變量X與Y之間有著差異關(guān)系,才可能進一步有著影響關(guān)系,也或者說差異關(guān)系是一種基礎(chǔ)性關(guān)系,影響關(guān)系是更進一步的深層次關(guān)系。所以在進行二元logistic回歸分析前,可先對X做差異分析,篩選出與Y有著差異性的X。

?

如果X是定類數(shù)據(jù),那么就使用卡方分析去分析差異;如果說X是定量數(shù)據(jù),那么可使用方差分析去研究X和Y的差異性。

?

分析完成X與Y的差異關(guān)系之后,篩選出有差異的X,然后再放入模型中,進行二元logistic回歸;這樣做的目的有兩個,一是簡化模型,越簡單的模型越容易擬合且效果越好;二是做到心里有數(shù),提前了解到數(shù)據(jù)之間的大致關(guān)系情況。

?

1.3 第三步為影響關(guān)系分析,即二元Logistic回歸分析

在上一步確認了可能的影響因素之后,此步驟直接對題進行二元Logistic回歸分析。二元Logistic回歸分析時,首先需要看某個題是否呈現(xiàn)出顯著性(如果P值小于0.05,則說明呈現(xiàn)出0.05水平的顯著性;如果P值小于0.01,則說明呈現(xiàn)出0.01水平的顯著性),如果呈現(xiàn)出顯著性,那么說明該題對Y有影響關(guān)系。具體是正向影響還是負向影響需要結(jié)合對應(yīng)的回歸系數(shù)值進行說明,如果回歸系數(shù)值大于0,則說明是正向影響;反之則說明是負向影響。

?

除此之外,二元Logistic回歸分析會涉及一個術(shù)語——對數(shù)比(SPSSAU中稱其為OR值)。對數(shù)比是一個倍數(shù)概念指標,該值等于回歸系數(shù)的指數(shù)次方,也稱exp(b)值。例如,研究相關(guān)因素對樣本‘是否購買理財產(chǎn)品’的影響,性別因素呈現(xiàn)出顯著性,并且性別以女性為對照項,其對數(shù)比(OR值)為1.34,這說明男性樣本購買理財產(chǎn)品的可能性是女性樣本的1.34倍。

?

二元Logistic回歸分析模型的擬合情況或模型效果的判斷會涉及3個指標,分別是Hosmer和Lemeshow檢驗、R2值和模型預(yù)測準確率表格。Hosmer和Lemeshow檢驗用于檢驗事實數(shù)據(jù)情況與模型擬合結(jié)果是否保持一致,如果在進行Hosmer和Lemeshow檢驗時P值大于0.05,那么說明事實數(shù)據(jù)情況與模型擬合結(jié)果保持一致,即說明模型擬合情況良好。

?

R2用于表示模型擬合程度,此值與多元線性回歸分析的R2值意義基本一致,此值的取值范圍為0~1,值越大意味著相關(guān)因素對Y的解釋力度越高。SPSSAU提供3個R方值指標,分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方。

?

除此之外,SPSSAU還會輸出模型預(yù)測準確率表格,用于分析模型的預(yù)測水平情況。比如有多大比例將本身為愿意購買理財產(chǎn)品的樣本誤判斷為不愿意購買理財產(chǎn)品的樣本。

?

2、如何使用SPSSAU進行二元logistic操作

在進行二元logistic回歸分析時,共分為三個步驟,第1步是數(shù)據(jù)處理。第二步是進行卡方或者方差分析試控X對于Y的差異,找出有差異關(guān)系的X,用于進一步的二元logistic回歸分析。

?

2.1 數(shù)據(jù)處理

如果X是定類數(shù)據(jù),比如性別或?qū)I(yè)。那么就需要首先對它們做虛擬啞變量處理,使用SPSSAU【數(shù)據(jù)處理】--【生成變量】。操作如下圖:



因變量Y只能包括數(shù)字0和1,如果因變量的原始數(shù)據(jù)不是這樣,那么就需要數(shù)據(jù)編碼,設(shè)置成0和1,使用SPSSAU數(shù)據(jù)處理->數(shù)據(jù)編碼功能,操作如下圖:



2.2 卡方分析或方差分析

本例子中想研究性別,專業(yè),年齡,月生活費共4項對于‘是否愿意理財’的影響。性別,專業(yè)這兩項為定類數(shù)據(jù),所以可使用卡方分析它們分別與‘是否愿意理財’的差異關(guān)系。而年齡和月生活費可看成定量數(shù)據(jù),可使用方差分析(或非參數(shù)檢驗)分析它們分別與‘是否愿意理財’的差異關(guān)系情況。

?

由于例子里面僅4個X,本身就較少,因此模型本身并不復(fù)雜,因此直接忽略此步驟即可,直接進行二元logistic回歸分析。

?

2.3 二元logistic回歸分析

SPSSAU進行二元logistic回歸分兩步,分別是在進階方法里面找到二元logit,第二是拖拽分析項到右我們就是右側(cè)框后開始分析,如下所示:

性別和專業(yè)均為定類數(shù)據(jù),所以進行了虛擬啞變量設(shè)置。


而且性別分為男和女,以女作為參照項,因此框中僅放入‘男’即可;

?

專業(yè)分為理工類,文科類,藝術(shù)類和,體育類;以體育類作為參照項,因此框中會少放體育類,放入另外3項即理工類,文科類和藝術(shù)類即可。

?

虛擬啞變量在進行影響關(guān)系研究時,一定需要有1個參照項,至于具體是哪一項,由研究者自行決定即可,無固定要求,一般是第1個或者最后1個,或者研究者希望設(shè)置作為參考項的。

?

完成后,SPSSAU會得到一系列的表格和智能分析,包括模型基本匯總表格,模型似然比檢驗表格,模型參數(shù)擬合表格,模型預(yù)測準確率表格,Hosmer-Lemeshow擬合度檢驗等。如下:

?

二元logit回歸分析基本匯總

二元logit回歸模型似然比檢驗結(jié)果

二元logit回歸結(jié)果分析

二元logit回歸預(yù)測準確率表格

Hosmer-Lemeshow擬合度檢驗?


3、二元logistic相關(guān)問題

在使用SPSSSAU進行二元logistic回歸時,可能會出現(xiàn)一些問題,比如提示奇異矩陣,質(zhì)量異常,Y值只能為0或1等,接下來一一說明。


第1點:出現(xiàn)奇異矩陣或質(zhì)量異常

如果做二元logistic提示奇異矩陣,通常有兩個原因,一是虛擬啞變量設(shè)置后,本應(yīng)該少放1項作為參考項但是并沒有,而是把所有的啞變量項都放入框中,這會導(dǎo)致絕對的共線性問題即會出現(xiàn)奇異矩陣矩陣。二是X之間有著太強的共線性(可使用通用方法的線性回歸查看下VIF值),此時也可能導(dǎo)致模型無法擬合等。先找出原因,然后把有問題的項移出模型中即可。

?

同時,如果自變量X的分布極其不均勻,SPSSAU建議可先對類別進行組合,可使用數(shù)據(jù)處理里面的數(shù)據(jù)編碼完成。

?

第2點:Y值只能為0或1

二元logistic回歸研究X對Y的影響,Y為兩個類別,比如是否愿意,是否喜歡,是否患病等,數(shù)字一定有且僅為2個,分別是0和1。如果不是這樣就會出現(xiàn)此類提示,可使用SPSSAU頻數(shù)分析進行檢查,并且使用數(shù)據(jù)處理->數(shù)據(jù)編碼功能進行處理成0和1。

?

第3點:OR值的意義

OR值=exp(b)值,即回歸系數(shù)的指數(shù)次方,該值在醫(yī)學(xué)研究里面使用較多,實際意義是X增加1個單位時,Y的增加幅度。如果僅僅是研究影響關(guān)系,該值意義較小。

?

第4點: wald值或z值

z 值=回歸系數(shù)/標準誤,該值為中間過程值無意義,只需要看p 值即可。有的軟件會提供wald值(但不提供z 值,該值也無實際意義),wald值= z 值的平方。

?

第5點: McFadden R 方、Cox & Snell R 方和Nagelkerke R 方相關(guān)問題?

Logit回歸時會提供此3個R 方值(分別是McFadden R 方、Cox & Snell R 方和Nagelkerke R 方),此3個R 方均為偽R 方值,其值越大越好,但其無法非常有效的表達模型的擬合程度,意義相對交小,而且多數(shù)情況此3個指標值均會特別小,研究人員不用過分關(guān)注于此3個指標值。一般報告其中任意一個R方值指標即可。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容