Logit模型的理解首先要區(qū)分理解 概率(probability)、發(fā)生比/幾率(odds)、發(fā)生比之比/優(yōu)勢(shì)比(odds ratio)之間的區(qū)別。
設(shè)想有一個(gè)二分變量Y記錄了人們對(duì)一項(xiàng)決議的意見(jiàn),Y=1表示支持某項(xiàng)決議,Y=0表示反對(duì)這項(xiàng)決議,對(duì)于人群總體來(lái)說(shuō),Y的均值用 μ 表示, μ 值就是支持的人占總?cè)藬?shù)的比例,也就是支持該決議的概率 P,而發(fā)生比 odds = P/(1-P),其含義是支持該決議的概率是反對(duì)該決議的倍數(shù),odds=1時(shí),支持和反對(duì)的概率相等,概率也可以由發(fā)生比反推得到。odds ratio 則指的是發(fā)生比之比,OR =[P1/(1-P1)]/[P2/(1-P2)]。logistic回歸的結(jié)果一般用發(fā)生比 odds 來(lái)解釋。
Logistic 模型的一般形式是:logit(p) = α+β1*X1+β2*X2+β3*X3+.....+βk*Xk,描述了Y的對(duì)數(shù)發(fā)生比隨X的取值變化而變化。這與傳統(tǒng)的線性回歸模型的形式很像,但是又存在著重要的差別。
直觀地理解這種差異:將兩種模型都視為廣義線性模型的特殊形式。廣義線性模型由三個(gè)部分組成:隨機(jī)部分、系統(tǒng)部分和連接部分。
隨機(jī)部分指的是變量Y以及Y的概率分布,傳統(tǒng)線性模型Y是連續(xù)變量并假設(shè)其服從正態(tài)分布。在經(jīng)典logistic回歸中,Y是一個(gè)二分變量并服從二項(xiàng)式分布。
系統(tǒng)部分指的是解釋變量以及這些解釋變量如何組合在一起構(gòu)成了解釋方程,在傳統(tǒng)線性模型和logistic回歸中都是這樣:α+β1*X1+β2*X2+β3*X3+.....+βk*Xk,這個(gè)表達(dá)通常被稱為線性預(yù)測(cè)(linear predictor),而x與其他解釋變量還可以結(jié)合(如相乘交互),因此可以做出其實(shí)非線性的預(yù)測(cè)。
連接部分說(shuō)明了Y的均值 μ =E(Y)如何與線性預(yù)測(cè)相聯(lián)系。
其實(shí)說(shuō)白了就是,隨機(jī)部分規(guī)定了 Y,系統(tǒng)部分規(guī)定了 X,而連接部分就是用一個(gè)連接函數(shù)(link function)將 X 與 Y連了起來(lái),也就是我們經(jīng)常看到的回歸方程,它所反映的是 x 的變化帶來(lái)的 Y 的均值的變化。
對(duì)Logit模型系數(shù)解釋的一個(gè)總的原則是:方向看系數(shù),大小看exp(系數(shù)),不管自變量是連續(xù)變量還是虛擬變量 or 其他。
假設(shè)我們要研究人們對(duì)一項(xiàng)法案的態(tài)度,自變量為性別和政治態(tài)度,政治態(tài)度是一個(gè)取值從-3到3的變量,測(cè)量受訪者更傾向于保守主義還是自由主義,越小越保守,越大越自由;性別是虛擬變量,1是男性,0是女性。因變量是對(duì)該法案的態(tài)度,是一個(gè)二分變量,0表示反對(duì),1表示支持。如果我們用P來(lái)表示因變量支持的概率,假設(shè)得到回歸方程如下:
Logit(P)=1.555-1.712*性別-0.513*政治態(tài)度
該模型等同于:Ln(P/(1-P))=1.555-1.712*性別-0.513*政治態(tài)度
這里的截距項(xiàng)是有意義的,表示持中立態(tài)度的女性支持法案的對(duì)數(shù)發(fā)生比是1.555,用公式來(lái)表示也就是 Ln(P/(1-P))=1.555,兩邊取對(duì)數(shù)即可得到 P/(1-P)=exp(1.555)=4.735,這時(shí)就方便解釋了,即政治態(tài)度持中立的女性支持法案的概率是反對(duì)該法案的概率的4.735倍。
男性:logit(P) = 1.555-1.712*1-0.513*0 = -0.157
女性:logit(P) = 1.555-1.712*0-0.513*0 = 1.555
如果我們想求得男性支持的幾率與女性支持的幾率之間的差異,其方法與傳統(tǒng)線性模型一致。在傳統(tǒng)線性模型中,我們要對(duì)比男性比女性增加或是減少了多少,通常會(huì)選擇使用減法直接相減,求出 Δy,在Logit模型中我們?nèi)匀贿x擇這一求差異的辦法,又稍稍有一點(diǎn)點(diǎn)不一樣,那么在這里就是:[男性logit(P)] - [女性logit(P)] = exp[Logit(P)男性] /exp[logit(P)女性]=0.1805,最終得到:odds男性/odds女性,實(shí)際上0.1805就是性別的系數(shù)取指數(shù)exp(-1.712)得到的,我們稱這一比率為odds ratio優(yōu)勢(shì)比,它是男性的支持幾率(odds)比上女性的支持幾率(odds)之比,是發(fā)生比之比,一般logit的系數(shù)我們就到此為止,不再繼續(xù)往下算了。優(yōu)勢(shì)比所反映的是在支持該法案這件事上,無(wú)論受訪者的政治態(tài)度是什么,男性的性別優(yōu)勢(shì)比始終保持0.1805,即男性支持該法案的幾率是女性支持該法案幾率的0.1805倍,大約是女性的1/5,之所以算到優(yōu)勢(shì)比這里為止,是因?yàn)殡S著其他控制變量(如這里的政治態(tài)度)的變化,男性與女性的發(fā)生比都會(huì)發(fā)生改變,但是優(yōu)勢(shì)比卻不會(huì)改變(Note:當(dāng)模型含有交互項(xiàng)時(shí)就不一樣了)。

觀察可以看到實(shí)際上隨著自變量的變化,y 的發(fā)生比預(yù)測(cè)值也隨著發(fā)生系統(tǒng)變化的趨勢(shì)。
乘積因子(multiplicative factor):乘積因子指的是連續(xù)變量的優(yōu)勢(shì)比,只要我們將某個(gè)連續(xù)變量取兩個(gè)相鄰遞減的數(shù)值,分別計(jì)算他們的發(fā)生比,然后計(jì)算優(yōu)勢(shì)比,就能得到這個(gè) “乘積因子”。當(dāng)自變量是定序/連續(xù)變量時(shí),其Logistic系數(shù)的指數(shù)就是一個(gè)乘積因子,在保持其他條件不變的情況下,該自變量每增加一個(gè)單位,預(yù)期發(fā)生比就等于原值乘以該乘積因子。如果乘積因子為1說(shuō)明該自變量的變化對(duì)因變量沒(méi)有影響,>1則會(huì)增加提高預(yù)測(cè)發(fā)生比,反之亦然。
要對(duì)Logit模型的系數(shù)取指數(shù)(Exponential),即取反對(duì)數(shù)之后,才方便我們進(jìn)行解釋。x每增加一個(gè)單位,y發(fā)生的幾率就是之前的exp(b)倍,一個(gè)乘積因子倍。在社會(huì)科學(xué)的研究報(bào)告中,大多都以發(fā)生比和優(yōu)勢(shì)比的形式出現(xiàn)。
1:影響的正負(fù)方向看系數(shù)的正負(fù),影響的大小看exp(b)

2:如果exp(b)大于1(系數(shù)大于0),假設(shè)是1.5,則x增加一個(gè)單位后,y發(fā)生的幾率(odds)是原來(lái)的1.5倍,或者說(shuō)比原來(lái)增加了50%
3:如果exp(b)小于1(系數(shù)小于0),假設(shè)是0.5,則x每增加一個(gè)單位,y發(fā)生的幾率(odds)是原來(lái)的0.5倍,或者說(shuō)比原來(lái)減少了50%
在stata中,logistic回歸的命令為 logit 和 logistic
logit y x?
logistic y x ? ? ? ?/* logistic 與 logit 命令不同的是可以直接輸出 exp(b) */
有時(shí)對(duì)自變量進(jìn)行代數(shù)轉(zhuǎn)換的意義:如果我們對(duì)自變量在某個(gè)取值上對(duì)應(yīng)的發(fā)生比感興趣,我們可以將該自變量增加或者減去該值,構(gòu)造一個(gè)新變量,讓新變量的 0 值等于原自變量的特定取值,然后用logistic進(jìn)行回歸,將得到的截距項(xiàng)求指數(shù),就是我們感興趣的取值對(duì)應(yīng)的預(yù)測(cè)發(fā)生比(這樣主要是還可以得到相應(yīng)的置信區(qū)間)。