二元Logistic回歸是一種用于研究因變量為二分類變量的統(tǒng)計方法，廣泛應(yīng)用于醫(yī)學、社會科學、金融等領(lǐng)域。它的主要目的是通過分析自變量（連續(xù)或分類變量）對二分類因變量的影響，預(yù)測事件發(fā)生的概率。本文將詳細介紹二元Logistic回歸分析的流程，包括在構(gòu)建回歸模型前的單因素篩查，SPSSAU軟件操作以及Logistic回歸分析結(jié)果解讀。

一、Logistic回歸的類型

根據(jù)數(shù)據(jù)資料的情況，Logistic回歸可分為成組資料的非條件Logistic回歸與配伍資料的條件Logistic回歸。其中，非條件Logistic回歸根據(jù)因變量的分類水平個數(shù)，可分為二元Logistic回歸、多分類Logistic回歸和有序Logistic回歸。

（1）二元Logistic回歸：因變量為二分類變量，且結(jié)局是互斥的，如是與否、死亡與未死亡等。

（2）多分類Logistic回歸：因變量是無序多分類變量，如某研究想了解不同性別、年齡等對于手機品牌偏好的不同，該因變量即為無序多分類變量，該問題適合采用多分類Logistic 回歸進行分析。

（3）有序Logistic回歸：因變量為有序分類變量（等級數(shù)據(jù)），如醫(yī)學研究中關(guān)于某病的治療效果，無效=1，有效=2，痊愈=3，如果要研究療效的影響因素，則采用有序Logistic回歸。

（4）條件Logistic回歸：又稱配對 Logistic 回歸，其主要用于配對資料或分層資料的多因素分析，包括1:1和1:M配對資料的研究及分析。

二、二元Logistic回歸分析原理

邏輯回歸中二元Logistic回歸最為常用。二元Logistic回歸分析適用于研究因變量為二分類變量的數(shù)據(jù)，二分類變量即為那些結(jié)局只有兩種可能性的變量。

因變量Y：只能用數(shù)字0、1表示；若不是，需要進行數(shù)據(jù)編碼。
自變量X：既可以是定量數(shù)據(jù)也可以是定類數(shù)據(jù)，定類數(shù)據(jù)要進行啞變量處理。

1、模型公式解讀

二元Logistic回歸模型公式如下：

整個模型以最大似然法進行參數(shù)估計，以醫(yī)學、流行病學為例，模型中有以下主要概念：

（1）P/1-P：稱為比值或優(yōu)勢(Odds)，ln(P/1-P)=logit(P)稱為優(yōu)勢的對數(shù)，大量實踐證明logit(P)與定量自變量呈線性關(guān)系。

（2）OR(Odds Ratio)值：又稱比值比、優(yōu)勢比，主要指病例組中的比值P/1-P除以對照組中的比值P/1-P，是流行病學、醫(yī)學研究中的一個常用指標。

（3）偏回歸系數(shù)βj（j=1,2,…,m）：表示在其他條件不變情況下，自變量每改變一個單位時logit(P)的改變量?；貧w系數(shù)如果是正數(shù)，表示自變量與因變量正相關(guān)；如果是負數(shù)則表示自變量與因變量負相關(guān)。

（4）回歸系數(shù)與OR值的關(guān)系：回歸系數(shù)主要解讀自變量的顯著性以及對因變量影響的正負方向，OR值用于衡量自變量對因變量作用程度，OR值等于回歸系數(shù)的自然對數(shù)值。例如自變量X的偏回歸系數(shù)為0.6，則其OR=exp(0.6)==1.822。

2、逐步法篩選自變量

二元logistic回歸分析可通過自動篩選對因變量有顯著影響的自變量，解決多重共線性問題并優(yōu)化模型簡潔性。SPSSAU進行分析時，如果需要自動尋找顯著的X，共提供3種方式，逐步法、向前法、向后法，一般情況下使用逐步法最多。

三、案例分析全流程

二元Logistic回歸分析一般步驟如下：

案例背景：研究者收集了銀行貸款客戶的個人負債信息，以及曾經(jīng)是否有過還貸違約記錄，數(shù)據(jù)賦值說明如下表所示，試分析是否違約的相關(guān)因素。

接下來進行二元Logistic回歸分析。

1、基本條件判斷

（1）因變量類型：研究貸款違約發(fā)生的相關(guān)因素，因變量“曾經(jīng)違約”有兩種結(jié)局“是”與“否”，因此選擇使用二元Logistic 回歸。

（2）多重共線性判斷：SPSSAU中二元logistic回歸可進行共線性診斷，其原理是利用線性回歸進行分析并且輸出VIF值及容忍度指標。如果出現(xiàn)某項VIF值大于10(嚴格情況下為VIF>5)，則說明該項具有共線性問題，可考慮將其移出模型后再次分析；進行二元logistic回歸時勾選“共線性診斷”，操作如下圖：

SPSSAU輸出共線性診斷結(jié)果如下：

分析上表可知，自變量VIF值均小于5，容忍度均大于0.2，故自變量間不存在共線性問題。

2、建立Logistic回歸模型

建立Logistic回歸模型進行單因素篩查、因變量0-1編碼和分類自變量啞變量處理。

（1）單因素篩查

Logistic 回歸建模常采用“先單后多”的分步篩選法：先通過單因素分析初篩自變量，再將顯著變量引入多因素模型。此方法在探索性研究、自變量較多或小樣本場景中應(yīng)用廣泛。

單因素分析依據(jù)變量類型選擇檢驗方法（如卡方檢驗用于分類變量，t 檢驗/方差分析用于連續(xù)變量）。為防止遺漏關(guān)鍵變量，單因素篩選的顯著性水平可適當放寬至 0.1、0.15 或 0.2。

針對本研究的自變量——四個連續(xù)變量（家庭收入等）和四個分類變量（年齡等），單因素篩查分別采用 t 檢驗（連續(xù)變量）和卡方檢驗（分類變量），顯著性水平放寬至 0.1。

連續(xù)變量進行t檢驗

將因變量“曾經(jīng)違約”作為因變量，“家庭收入”等4個連續(xù)變量作為自變量進行獨立樣本t檢驗，SPSSAU操作如下圖：

SPSSAU輸出獨立樣本t檢驗結(jié)果如下：

分析上表可知，四個定量自變量的p值均小于0.1（顯著性水平放寬），均會對因變量“曾經(jīng)違約”產(chǎn)生顯著影響，均保留。

分類變量進行卡方檢驗

將因變量“曾經(jīng)違約”作為因變量，“年齡”等4個分類變量作為自變量進行卡方檢驗，SPSSAU操作如下圖：

SPSSAU輸出卡方檢驗分析結(jié)果如下：

分析上表可知：“年齡”等4個定類自變量的p值均小于0.05，均會對“曾經(jīng)違約”產(chǎn)生顯著影響，均保留。

【提示】：需要說明的是，在樣本量充足、研究目標明確且具備充分理論依據(jù)的情況下，可省略單因素篩選步驟，直接將所有自變量納入多因素 Logistic 回歸模型。

（2）因變量0-1編碼

進行二元Logistic回歸分析，因變量必須為使用數(shù)字0、1表示（本案例為0、1表示），若非如此，需要使用SPSSAU【數(shù)據(jù)處理】模塊的【數(shù)據(jù)編碼】進行處理，操作如下圖：

（3）定類自變量啞變量處理

回歸分析時，需要對定類自變量進行啞變量處理，在【數(shù)據(jù)處理】模塊，選擇【生成變量】，選中定類自變量然后點擊生成“虛擬(啞)變量”，操作如下圖：

（4）二元Logistic回歸分析

在SPSSAU【進階方法】模塊選擇【二元Logit】，自變量拖拽到右側(cè)分析框，注意本例全部選擇定類變量的第一個水平作為參照項，參照項不移入分析框中，選擇變量進入方法為“逐步法”，操作如下圖：

點擊“開始分析”按鈕得到二元logistic回歸分析結(jié)果，下面按順序解讀分析結(jié)果。

3、模型整體檢驗與評價

（1）似然比卡方檢驗

似然比檢驗用于檢驗?zāi)Ｐ驼w的有效性，如果p值小于0.05，則說明模型有效；反之則說明模型無效。

分析上表可知：χ2 =229.287，p<0.01，認為二元 Logistic 回歸模型總體上有統(tǒng)計學意義，模型中引入的自變量至少有一個對因變量有影響，模型是有效的。

表中的AIC和BIC值用于多次分析時的對比，此兩值越低越好。如果多次進行分析，可對比此兩個值的變化情況，綜合說明模型構(gòu)建的優(yōu)化過程。

（2）Hosmer-Lemeshow檢驗

H-L檢驗原假設(shè)為，模型擬合值和觀測值的擬合狀況良好，如果p值大于0.05則說明通過HL檢驗，反之則說明模型沒有通過HL檢驗，模型擬合優(yōu)度差。

分析上表可知：χ2=5.219，p=0.734>0.05，說明模型擬合良好。

（3）決定系數(shù)R方

在模型分析結(jié)果匯總表（偏回歸系數(shù)解釋時使用），即下表的底部，SPSSAU提供了3個偽 R2指標，其含義類似線性回歸中的決定系數(shù)R2 ，取值越大越好，在實際分析中應(yīng)用較少，可以不做關(guān)注。

（4）模型預(yù)測準確率

本例二元 Logistic 回歸模型對結(jié)局 0 即未違約的預(yù)測準確率為 93.037%（481/517），對結(jié)局為 1 即違約的預(yù)測準確率為 45.902%，總體預(yù)測準確率為 80.714%。從銀行貸款業(yè)務(wù)風險預(yù)警角度來看，本例更關(guān)注對違約結(jié)局的預(yù)測能力，顯然 45.902%是比較低的，該模型的實用價值有待進一步提高。

【注意】：有些研究并不看中模型的預(yù)測能力，而主要關(guān)注的是因變量的相關(guān)影響因素。

4、回歸系數(shù)/OR值解讀

回歸系數(shù)與OR值的關(guān)系：OR 值等于回歸系數(shù)的自然對數(shù)值，若自變量X的偏回歸系數(shù)為0.6，則其OR=exp(0.6)

若?β?j < 0，則 OR 值小于 1，表示該因素是保護或抑制因素。
若?β?j = 0，則 OR 值等于 1，表示該因素對結(jié)局的發(fā)生與否不起作用。
若?β?j > 0，則 OR 值大于 1，表示該因素是危險或促進因素。

SPSSAU輸出二元Logistic回歸分析結(jié)果如下。通過逐步法，模型能自動根據(jù)顯著性情況對自變量進行引入或剔除，最終保留了以下變量，這些變量均會對因變量“曾經(jīng)違約”產(chǎn)生顯著影響。

對于二元logistic回歸分析結(jié)果，重點應(yīng)該關(guān)注的是各因素的回歸系數(shù)、OR值及其95%CI。對于不同類型變量其回歸系數(shù)與OR值解讀略有不同，下面分別以一個變量進行舉例說明。

（1）定量變量解讀

兩個定量數(shù)據(jù)“負債收入比率”“信用卡負債”的回歸系數(shù)為正數(shù)，認為其與“是否違約”存在正向相關(guān)關(guān)系。相對應(yīng)的 OR 值大于 1，OR 值 95% CI 不包括 1，說明“負債收入比率”“信用卡負債”越高越容易出現(xiàn)償還貸款違約的情況。
以“信用卡負債”為例：

Wald χ2=29.666，p<0.01，認為其對“是否違約”的影響有統(tǒng)計學意義。
回歸系數(shù)為0.426，說明二者存在正相關(guān)關(guān)系。
OR=1.530>1，說明其為發(fā)生違約的危險因素或促進因素，“信用卡負債”每增加一個單位，其發(fā)生違約的可能性是原來的 1.530 倍，或發(fā)生違約的可能性比原來增加 53%。

（2）定類變量解讀

4 個啞變量的偏回歸系數(shù)均為負數(shù)，說明其與“曾經(jīng)違約”存在負相關(guān)關(guān)系，相對應(yīng)的 OR 值均小于 1，OR 值 95% CI 不包括 1，說明變量對“是否違約”起抑制作用，“當前居住時長”“當前工作時長”越長（相對于參照項—最低水平啞變量時長越長）越不容易出現(xiàn)還貸違約的情況。
以“當前雇傭時長_10 年以上”為例：

Wald χ2=67.611，p<0.01，相較于“當前雇傭時長_4 年以下”認為其對“是否違約”的影響有統(tǒng)計學意義。
回歸系數(shù)為-3.211，說明二者存在負相關(guān)關(guān)系。
OR=0.040<1，說明其為發(fā)生違約的保護因素或抑制因素，“當前雇傭時長”每改變一個等級，其發(fā)生違約的可能性是原來的 0.040 倍，或發(fā)生違約的可能性比原來降低 99.6%。

5、結(jié)果報告

本例建立的貸款違約二元 Logistic 回歸模型為：
ln(P/1-P)=-1.099-0.947×當前居住時長_10 年以上-0.789×當前居住時長_4～10 年-3.211×當前雇傭時長_10 年以上-1.292×當前雇傭時長_4～10 年+0.103×負債收入比率+0.426×信用卡負債

其中，P 代表“曾經(jīng)違約”為 1 的概率，1-P 代表“曾經(jīng)違約”為 0 的概率。總體而言模型有統(tǒng)計學意義。“負債收入比率”和“信用卡負債”正向影響違約的發(fā)生，而“當前居住時長”和“當前雇傭時長”則反向抑制違約的發(fā)生。

OR值95%CI可直觀地展示模型中引入的自變量，以及各自變量對因變量影響的 OR值情況。SPSSAU輸出二元Logistic回歸的OR值結(jié)果繪制的圖形如下圖所示：

圖中垂直的虛線代表 OR 值等于 1，為無效線，圖中的橫線段為各自變量的 OR 值 CI，線段中間的圓點為具體的 OR 值。若各自變量的 OR 值 CI 和虛線無交叉或重疊，則表示對應(yīng)的自變量有顯著性，位于虛線右側(cè)表示 OR 值大于 1，為危險因素；位于虛線左側(cè)表示 OR 值小于 1，為保護因素。

若不會解讀分析結(jié)果，可以參考SPSSAU分析結(jié)果表格下方的智能分析與分析建議，如下圖：

其他結(jié)果：

除以上結(jié)果外，SPSSAU還會給出邊際效應(yīng)結(jié)果。邊際效應(yīng)指增加一個單位時額外帶來的效應(yīng)情況，通常在經(jīng)濟計量領(lǐng)域使用較多；

如果邊際效應(yīng)值呈現(xiàn)出顯著性，則意味著有著顯著的邊際效應(yīng)，反之則說明沒有顯著的邊際效應(yīng)。如果邊際效應(yīng)值顯著且大于0，則意味著X的增加會帶來正向效應(yīng)變化；如果邊際效應(yīng)值顯著且小于0，則意味著X的增加會帶來負向效應(yīng)變化。

迭代SPSSAU還會給出中間過程表格，展示二元logistic回歸分析時的每一次迭代過程回歸系數(shù)及p值等，更多結(jié)果以及疑難解惑可以查看幫助手冊。

四、總結(jié)

劃重點

1、應(yīng)用：二元Logistic回歸分析因變量為二分類變量，自變量可以為定量數(shù)據(jù)或者定類數(shù)據(jù)，定類數(shù)據(jù)時需要進行啞變量處理再分析。

2、單因素篩查：當自變量較多時，先通過單因素分析篩選自變量，然后僅保留有顯著影響的自變量進行多因素Logistic回歸。同時為避免遺漏重要變量，差異的顯著性水平可以適當放寬。

3、啞變量參照項：進行回歸分析時，針對定類變量生成的啞變量，需要留一項作為參照項，一般為最低水平。

4、回歸系數(shù)與OR值：解讀的時候需要注意二者的關(guān)系，定量變量與定類變量解讀方式略有不同。

參考文獻：周俊,馬世澎. SPSSAU科研數(shù)據(jù)分析方法與應(yīng)用.第1版[M]. 電子工業(yè)出版社,2024.

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

統(tǒng)計小白 | 一文搞懂二元Logistic回歸分析全流程

統(tǒng)計小白 | 一文搞懂二元Logistic回歸分析全流程

一、Logistic回歸的類型

二、二元Logistic回歸分析原理

三、案例分析全流程

四、總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

統(tǒng)計小白 | 一文搞懂二元Logistic回歸分析全流程

一、Logistic回歸的類型

二、二元Logistic回歸分析原理

三、案例分析全流程

四、總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

三、案例分析全流程