參考資料:http://www.itdecent.cn/p/15646e157fbd
https://zhuanlan.zhihu.com/p/27100034
第一次做離散選擇模型的實(shí)證研究,感覺有必要對(duì)一些基礎(chǔ)概念和處理方法進(jìn)行梳理。
因?yàn)橐呀?jīng)很熟悉離散選擇模型的數(shù)學(xué)原理了,在這里先跳過。等完成論文后再進(jìn)行梳理(嘻嘻)
1. 基礎(chǔ)概念
一些可能會(huì)在寫論文時(shí)用得上的詞匯
(1)定義
離散選擇模型描述了決策者在不同的Alternative中做作出的選擇
(1)決策者(Decision Maker),即做出選擇行為的主體;具有個(gè)體異質(zhì)性
(2)選擇集(Alternatives):所有可供選擇項(xiàng)目的加總 被解釋變量
(3)各個(gè)方案的屬性(Attributes of Alternatives):不同的方案屬性描述了各個(gè)方案在不同的維度上可以提供給人們的效用(Utility)解釋變量
(4)決策準(zhǔn)則(Decision Rules)。不同的決策者在做出方案選擇時(shí)的行為準(zhǔn)則不盡然相同。仍然以上面“選擇餐廳”的例子予以說明:有人在選擇餐廳時(shí)可能會(huì)比較的“隨意”——隨便挑一家即可;而有的人可能會(huì)綜合利用各種信息資源(如“大眾點(diǎn)評(píng)”App)做出一個(gè)對(duì)自己最為有利的選擇。不一樣的決策準(zhǔn)則會(huì)導(dǎo)致不同的選擇結(jié)果。
(2)Odd
Odds指的是事件發(fā)生的概率與事件不發(fā)生的概率之比。事件A的Odds 等于 事件A出現(xiàn)的次數(shù) 和 其它(非A)事件出現(xiàn)的次數(shù) 之比;相比之下,事件A的概率 等于 事件A出現(xiàn)的次數(shù) 與 所有事件的次數(shù) 之比。Odds的對(duì)數(shù)稱之為L(zhǎng)ogit。
這個(gè)講得挺淺顯易懂的:
(2)
2. 數(shù)據(jù)準(zhǔn)備
就是數(shù)據(jù)搜集完成,在跑模型之前,要怎么處理變量,能夠使模型回歸結(jié)果更可靠的工作
(1)樣本量
a. 沒有統(tǒng)一標(biāo)準(zhǔn)
b.但如果樣本量小于100,logistic回歸的最大似然估計(jì)可能有一定的風(fēng)險(xiǎn),如果大于500則顯得比較充足。
c. 一般認(rèn)為,每一個(gè)自變量至少要10例結(jié)局保證估計(jì)的可靠性。注意:這里是結(jié)局例數(shù),而不是整個(gè)樣本例數(shù)。(如果你有7個(gè)自變量,那至少需要70例研究結(jié)局,否則哪怕你有1000例,而結(jié)局的例數(shù)只有10例,依然顯得不足。)
我有150個(gè)樣本>>在沒有完全重復(fù)問卷的情況下最多只能15個(gè)自變量
(2)自變量賦值
疑問:分類、連續(xù)or dummy?哪一個(gè)更好呢?
解答:相同自變量以不同形式進(jìn)入MNL模型,所表達(dá)的含義不同。我的理解,dummy = 分類變量 > 連續(xù)變量
例如體重,如果直接進(jìn)行分析,結(jié)果提示的是每增加1Kg發(fā)生某病的危險(xiǎn)。而現(xiàn)實(shí)中多數(shù)疾病可能對(duì)體重增加1Kg不敏感,或者我們醫(yī)務(wù)人員不關(guān)心增加1Kg所發(fā)生的變化,而關(guān)注的是胖子是不是比瘦子有更高的發(fā)病風(fēng)險(xiǎn)。
至于啞變量和分類變量,則要視變量所想解釋的經(jīng)濟(jì)學(xué)含義而定。
例如研究收入對(duì)出發(fā)時(shí)間的影響(如出發(fā)時(shí)間越早,收入越低),則用分類變量(設(shè)置不同時(shí)間段,標(biāo)為1,2,3,4)比較好;
自變量和logit如果不是線性關(guān)系,最好不要設(shè)置成分類變量,轉(zhuǎn)換成dummy再進(jìn)入模型。
如果取值結(jié)果與預(yù)期相反,注意看看是不是因變量賦值,大小順序顛倒
(3)混雜因素(沒看懂)
混雜因素一般可以通過三個(gè)方面確定:
一是該因素(吸煙)對(duì)結(jié)局(心絞痛)有影響;
二是該因素(吸煙)在分析因素(基因)中的分布不均衡;
三是從專業(yè)角度來判斷,即該因素不能是分析因素與結(jié)局中間的一個(gè)環(huán)節(jié)。也就是說,不能是分析因素引起該因素,通過該因素再引起結(jié)局。
(4)交互作用
交互作用有的書中也叫效應(yīng)修飾,是指在該因素的不同水平(不同取值),分析因素與結(jié)局的的關(guān)聯(lián)大小有所不同。在某一水平上(如取值為0)可能分析因素對(duì)結(jié)局的效應(yīng)大,而在另一個(gè)水平上(如取值為1)可能效應(yīng)小。
我的理解:以受教育水平為例,文盲的取值為0,大專以下文憑為1。在一般問卷中不會(huì)涉及文盲這個(gè)選項(xiàng),所以這時(shí)分類序數(shù)變量應(yīng)從1開始。
(5)變量相關(guān)性
LR 中特征強(qiáng)相關(guān),不會(huì)影響最優(yōu)性,但會(huì)造成權(quán)重的數(shù)值解不穩(wěn)定。
(6)內(nèi)生性問題
可以參考文獻(xiàn)
二值選擇模型內(nèi)生性檢驗(yàn)方法_步驟及Stata應(yīng)用 袁微