統(tǒng)計小白 | 一文搞懂二元Logistic回歸分析全流程

二元Logistic回歸是一種用于研究因變量為二分類變量的統(tǒng)計方法,廣泛應(yīng)用于醫(yī)學、社會科學、金融等領(lǐng)域。它的主要目的是通過分析自變量(連續(xù)或分類變量)對二分類因變量的影響,預(yù)測事件發(fā)生的概率。本文將詳細介紹二元Logistic回歸分析的流程,包括在構(gòu)建回歸模型前的單因素篩查,SPSSAU軟件操作以及Logistic回歸分析結(jié)果解讀。

一、Logistic回歸的類型

根據(jù)數(shù)據(jù)資料的情況,Logistic回歸可分為成組資料的非條件Logistic回歸與配伍資料的條件Logistic回歸。其中,非條件Logistic回歸根據(jù)因變量的分類水平個數(shù),可分為二元Logistic回歸、多分類Logistic回歸和有序Logistic回歸。

1)二元Logistic回歸:因變量為二分類變量,且結(jié)局是互斥的,如是與否、死亡與未死亡等。

2)多分類Logistic回歸:因變量是無序多分類變量,如某研究想了解不同性別、年齡等對于手機品牌偏好的不同,該因變量即為無序多分類變量,該問題適合采用多分類Logistic 回歸進行分析。

3)有序Logistic回歸:因變量為有序分類變量(等級數(shù)據(jù)),如醫(yī)學研究中關(guān)于某病的治療效果,無效=1,有效=2,痊愈=3,如果要研究療效的影響因素,則采用有序Logistic回歸。

4)條件Logistic回歸:又稱配對 Logistic 回歸,其主要用于配對資料或分層資料的多因素分析,包括1:1和1:M配對資料的研究及分析。

二、二元Logistic回歸分析原理

邏輯回歸中二元Logistic回歸最為常用。二元Logistic回歸分析適用于研究因變量為二分類變量的數(shù)據(jù),二分類變量即為那些結(jié)局只有兩種可能性的變量。

  • 因變量Y:只能用數(shù)字0、1表示;若不是,需要進行數(shù)據(jù)編碼。

  • 自變量X:既可以是定量數(shù)據(jù)也可以是定類數(shù)據(jù),定類數(shù)據(jù)要進行啞變量處理。

1、模型公式解讀

二元Logistic回歸模型公式如下:


整個模型以最大似然法進行參數(shù)估計,以醫(yī)學、流行病學為例,模型中有以下主要概念:

1P/1-P稱為比值或優(yōu)勢(Odds),ln(P/1-P)=logit(P)稱為優(yōu)勢的對數(shù),大量實踐證明logit(P)與定量自變量呈線性關(guān)系。

2OR(Odds Ratio)值:又稱比值比、優(yōu)勢比,主要指病例組中的比值P/1-P除以對照組中的比值P/1-P,是流行病學、醫(yī)學研究中的一個常用指標。

3) 偏回歸系數(shù)βj(j=1,2,…,m):表示在其他條件不變情況下,自變量每改變一個單位時logit(P)的改變量?;貧w系數(shù)如果是正數(shù),表示自變量與因變量正相關(guān);如果是負數(shù)則表示自變量與因變量負相關(guān)。

4) 回歸系數(shù)與OR值的關(guān)系:回歸系數(shù)主要解讀自變量的顯著性以及對因變量影響的正負方向,OR值用于衡量自變量對因變量作用程度,OR值等于回歸系數(shù)的自然對數(shù)值。例如自變量X的偏回歸系數(shù)為0.6,則其OR=exp(0.6)==1.822。

2、逐步法篩選自變量

二元logistic回歸分析可通過自動篩選對因變量有顯著影響的自變量,解決多重共線性問題并優(yōu)化模型簡潔性。SPSSAU進行分析時,如果需要自動尋找顯著的X,共提供3種方式,逐步法、向前法、向后法,一般情況下使用逐步法最多。

三、案例分析全流程

二元Logistic回歸分析一般步驟如下:

案例背景:研究者收集了銀行貸款客戶的個人負債信息,以及曾經(jīng)是否有過還貸違約記錄,數(shù)據(jù)賦值說明如下表所示,試分析是否違約的相關(guān)因素。

接下來進行二元Logistic回歸分析。

1、基本條件判斷

1)因變量類型:研究貸款違約發(fā)生的相關(guān)因素,因變量“曾經(jīng)違約”有兩種結(jié)局“是”與“否”,因此選擇使用二元Logistic 回歸。

2)多重共線性判斷:SPSSAU中二元logistic回歸可進行共線性診斷,其原理是利用線性回歸進行分析并且輸出VIF值及容忍度指標。如果出現(xiàn)某項VIF值大于10(嚴格情況下為VIF>5),則說明該項具有共線性問題,可考慮將其移出模型后再次分析;進行二元logistic回歸時勾選“共線性診斷”,操作如下圖:


SPSSAU輸出共線性診斷結(jié)果如下:


分析上表可知,自變量VIF值均小于5,容忍度均大于0.2,故自變量間不存在共線性問題。

2、建立Logistic回歸模型

建立Logistic回歸模型進行單因素篩查、因變量0-1編碼和分類自變量啞變量處理。

1)單因素篩查

Logistic 回歸建模常采用“先單后多”的分步篩選法:先通過單因素分析初篩自變量,再將顯著變量引入多因素模型。此方法在探索性研究、自變量較多或小樣本場景中應(yīng)用廣泛。

單因素分析依據(jù)變量類型選擇檢驗方法(如卡方檢驗用于分類變量,t 檢驗/方差分析用于連續(xù)變量)。為防止遺漏關(guān)鍵變量,單因素篩選的顯著性水平可適當放寬至 0.1、0.15 或 0.2。

針對本研究的自變量——四個連續(xù)變量(家庭收入等)和四個分類變量(年齡等),單因素篩查分別采用 t 檢驗(連續(xù)變量)和卡方檢驗(分類變量),顯著性水平放寬至 0.1。

  • 連續(xù)變量進行t檢驗

將因變量“曾經(jīng)違約”作為因變量,“家庭收入”等4個連續(xù)變量作為自變量進行獨立樣本t檢驗,SPSSAU操作如下圖:


SPSSAU輸出獨立樣本t檢驗結(jié)果如下:

分析上表可知,四個定量自變量的p值均小于0.1(顯著性水平放寬),均會對因變量“曾經(jīng)違約”產(chǎn)生顯著影響,均保留。

  • 分類變量進行卡方檢驗

將因變量“曾經(jīng)違約”作為因變量,“年齡”等4個分類變量作為自變量進行卡方檢驗,SPSSAU操作如下圖:

SPSSAU輸出卡方檢驗分析結(jié)果如下:

分析上表可知:“年齡”等4個定類自變量的p值均小于0.05,均會對“曾經(jīng)違約”產(chǎn)生顯著影響,均保留。

【提示】:需要說明的是,在樣本量充足、研究目標明確且具備充分理論依據(jù)的情況下,可省略單因素篩選步驟,直接將所有自變量納入多因素 Logistic 回歸模型。

2)因變量0-1編碼

進行二元Logistic回歸分析,因變量必須為使用數(shù)字0、1表示(本案例為0、1表示),若非如此,需要使用SPSSAU【數(shù)據(jù)處理】模塊的【數(shù)據(jù)編碼】進行處理,操作如下圖:

3)定類自變量啞變量處理

回歸分析時,需要對定類自變量進行啞變量處理,在【數(shù)據(jù)處理】模塊,選擇【生成變量】,選中定類自變量然后點擊生成“虛擬(啞)變量”,操作如下圖:

4)二元Logistic回歸分析

在SPSSAU【進階方法】模塊選擇【二元Logit】,自變量拖拽到右側(cè)分析框,注意本例全部選擇定類變量的第一個水平作為參照項,參照項不移入分析框中,選擇變量進入方法為“逐步法”,操作如下圖:

點擊“開始分析”按鈕得到二元logistic回歸分析結(jié)果,下面按順序解讀分析結(jié)果。

3、模型整體檢驗與評價

1)似然比卡方檢驗

似然比檢驗用于檢驗?zāi)P驼w的有效性,如果p值小于0.05,則說明模型有效;反之則說明模型無效。

分析上表可知:χ2 =229.287,p<0.01,認為二元 Logistic 回歸模型總體上有統(tǒng)計學意義,模型中引入的自變量至少有一個對因變量有影響,模型是有效的。

表中的AIC和BIC值用于多次分析時的對比,此兩值越低越好。如果多次進行分析,可對比此兩個值的變化情況,綜合說明模型構(gòu)建的優(yōu)化過程。

2Hosmer-Lemeshow檢驗

H-L檢驗原假設(shè)為,模型擬合值和觀測值的擬合狀況良好,如果p值大于0.05則說明通過HL檢驗,反之則說明模型沒有通過HL檢驗,模型擬合優(yōu)度差。

分析上表可知:χ2=5.219,p=0.734>0.05,說明模型擬合良好。

3)決定系數(shù)R

在模型分析結(jié)果匯總表(偏回歸系數(shù)解釋時使用),即下表的底部,SPSSAU提供了3個偽 R2指標,其含義類似線性回歸中的決定系數(shù)R2 ,取值越大越好,在實際分析中應(yīng)用較少,可以不做關(guān)注。


4)模型預(yù)測準確率

本例二元 Logistic 回歸模型對結(jié)局 0 即未違約的預(yù)測準確率為 93.037%(481/517),對結(jié)局為 1 即違約的預(yù)測準確率為 45.902%,總體預(yù)測準確率為 80.714%。從銀行貸款業(yè)務(wù)風險預(yù)警角度來看,本例更關(guān)注對違約結(jié)局的預(yù)測能力,顯然 45.902%是比較低的,該模型的實用價值有待進一步提高。

【注意】:有些研究并不看中模型的預(yù)測能力,而主要關(guān)注的是因變量的相關(guān)影響因素。

4、回歸系數(shù)/OR值解讀

回歸系數(shù)與OR值的關(guān)系:OR 值等于回歸系數(shù)的自然對數(shù)值,若自變量X的偏回歸系數(shù)為0.6,則其OR=exp(0.6)

  • 若?β?j < 0,則 OR 值小于 1,表示該因素是保護或抑制因素。

  • 若?β?j = 0,則 OR 值等于 1,表示該因素對結(jié)局的發(fā)生與否不起作用。

  • 若?β?j > 0,則 OR 值大于 1,表示該因素是危險或促進因素。

SPSSAU輸出二元Logistic回歸分析結(jié)果如下。通過逐步法,模型能自動根據(jù)顯著性情況對自變量進行引入或剔除,最終保留了以下變量,這些變量均會對因變量“曾經(jīng)違約”產(chǎn)生顯著影響。

對于二元logistic回歸分析結(jié)果,重點應(yīng)該關(guān)注的是各因素的回歸系數(shù)、OR值及其95%CI。對于不同類型變量其回歸系數(shù)與OR值解讀略有不同,下面分別以一個變量進行舉例說明。

1)定量變量解讀

兩個定量數(shù)據(jù)“負債收入比率”“信用卡負債”的回歸系數(shù)為正數(shù),認為其與“是否違約”存在正向相關(guān)關(guān)系。相對應(yīng)的 OR 值大于 1,OR 值 95% CI 不包括 1,說明“負債收入比率”“信用卡負債”越高越容易出現(xiàn)償還貸款違約的情況。
以“信用卡負債”為例:

  • Wald χ2=29.666,p<0.01,認為其對“是否違約”的影響有統(tǒng)計學意義。

  • 回歸系數(shù)為0.426,說明二者存在正相關(guān)關(guān)系。

  • OR=1.530>1,說明其為發(fā)生違約的危險因素或促進因素,“信用卡負債”每增加一個單位,其發(fā)生違約的可能性是原來的 1.530 倍,或發(fā)生違約的可能性比原來增加 53%。

2)定類變量解讀

4 個啞變量的偏回歸系數(shù)均為負數(shù),說明其與“曾經(jīng)違約”存在負相關(guān)關(guān)系,相對應(yīng)的 OR 值均小于 1,OR 值 95% CI 不包括 1,說明變量對“是否違約”起抑制作用,“當前居住時長”“當前工作時長”越長(相對于參照項—最低水平啞變量時長越長)越不容易出現(xiàn)還貸違約的情況。
以“當前雇傭時長_10 年以上”為例:

  • Wald χ2=67.611,p<0.01,相較于“當前雇傭時長_4 年以下”認為其對“是否違約”的影響有統(tǒng)計學意義。

  • 回歸系數(shù)為-3.211,說明二者存在負相關(guān)關(guān)系。

  • OR=0.040<1,說明其為發(fā)生違約的保護因素或抑制因素,“當前雇傭時長”每改變一個等級,其發(fā)生違約的可能性是原來的 0.040 倍,或發(fā)生違約的可能性比原來降低 99.6%。

5、結(jié)果報告

  • 本例建立的貸款違約二元 Logistic 回歸模型為:
    ln(P/1-P)=-1.099-0.947×當前居住時長_10 年以上-0.789×當前居住時長_4~10 年-3.211×當前雇傭時長_10 年以上-1.292×當前雇傭時長_4~10 年+0.103×負債收入比率+0.426×信用卡負債

其中,P 代表“曾經(jīng)違約”為 1 的概率,1-P 代表“曾經(jīng)違約”為 0 的概率。總體而言模型有統(tǒng)計學意義。“負債收入比率”和“信用卡負債”正向影響違約的發(fā)生,而“當前居住時長”和“當前雇傭時長”則反向抑制違約的發(fā)生。

OR值95%CI可直觀地展示模型中引入的自變量,以及各自變量對因變量影響的 OR值情況。SPSSAU輸出二元Logistic回歸的OR值結(jié)果繪制的圖形如下圖所示:

圖中垂直的虛線代表 OR 值等于 1,為無效線,圖中的橫線段為各自變量的 OR 值 CI,線段中間的圓點為具體的 OR 值。若各自變量的 OR 值 CI 和虛線無交叉或重疊,則表示對應(yīng)的自變量有顯著性,位于虛線右側(cè)表示 OR 值大于 1,為危險因素;位于虛線左側(cè)表示 OR 值小于 1,為保護因素。

若不會解讀分析結(jié)果,可以參考SPSSAU分析結(jié)果表格下方的智能分析與分析建議,如下圖:

  • 其他結(jié)果:

除以上結(jié)果外,SPSSAU還會給出邊際效應(yīng)結(jié)果。邊際效應(yīng)指增加一個單位時額外帶來的效應(yīng)情況,通常在經(jīng)濟計量領(lǐng)域使用較多;

如果邊際效應(yīng)值呈現(xiàn)出顯著性,則意味著有著顯著的邊際效應(yīng),反之則說明沒有顯著的邊際效應(yīng)。如果邊際效應(yīng)值顯著且大于0,則意味著X的增加會帶來正向效應(yīng)變化;如果邊際效應(yīng)值顯著且小于0,則意味著X的增加會帶來負向效應(yīng)變化。

迭代SPSSAU還會給出中間過程表格,展示二元logistic回歸分析時的每一次迭代過程回歸系數(shù)及p值等,更多結(jié)果以及疑難解惑可以查看幫助手冊。

四、總結(jié)

劃重點

1、應(yīng)用:二元Logistic回歸分析因變量為二分類變量,自變量可以為定量數(shù)據(jù)或者定類數(shù)據(jù),定類數(shù)據(jù)時需要進行啞變量處理再分析。

2、單因素篩查:當自變量較多時,先通過單因素分析篩選自變量,然后僅保留有顯著影響的自變量進行多因素Logistic回歸。同時為避免遺漏重要變量,差異的顯著性水平可以適當放寬。

3、啞變量參照項:進行回歸分析時,針對定類變量生成的啞變量,需要留一項作為參照項,一般為最低水平。

4、回歸系數(shù)與OR值:解讀的時候需要注意二者的關(guān)系,定量變量與定類變量解讀方式略有不同。

參考文獻:周俊,馬世澎. SPSSAU科研數(shù)據(jù)分析方法與應(yīng)用.第1版[M]. 電子工業(yè)出版社,2024.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容