PSM傾向得分匹配法學(xué)習(xí)指南

1. 面對的問題-自我選擇偏誤

????面對“參加就業(yè)培訓(xùn)可以增加參與者的未來收入嗎?”**這個問題,首先我們我們不能簡單的去比較是否參加就業(yè)培訓(xùn)對人們未來收入的影響,那樣我們的調(diào)研對象就是“所有人”,而不是“參加就業(yè)培訓(xùn)的人”。其次,我們可能會發(fā)現(xiàn)參加就業(yè)培訓(xùn)的人的收入要比不參加就業(yè)培訓(xùn)的人的收入更低,難道就業(yè)收入是有害的嗎?其實是因為參加就業(yè)培訓(xùn)的人可能是失業(yè)者、刑滿釋放著等等。

????總結(jié)來看,在這個問題上,我們更想知道的是:參加就業(yè)培訓(xùn)者的狀況比他們不參加就業(yè)培訓(xùn)改善了多少,即:
ATT\equiv\mathbb{E}\left( y_{1i}-y_{0i}\right|D_i=1)

????ATT就是我們最為關(guān)注的參與組的平均處理效應(yīng),y_{1i}第一個字母表示是否參加培訓(xùn),第二個字表i表示第幾個樣本,所以y_{1i}表示第i個樣本參加就業(yè)培訓(xùn)的收入,y_{0i}表示第i個樣本不參加就業(yè)培訓(xùn)的收入。但是我們發(fā)現(xiàn)在同一時空下,一個人要么參加就業(yè)培訓(xùn),要么不參加就業(yè)培訓(xùn),即y_{0i}是不可測的。

????這就是我們面臨的問題,PSM分析方法就是通過匹配來幫我們構(gòu)造一個反事實的樣本,進而使得y_{0i}可測,ATT可估。

2. 采用的方法-匹配

2.1匹配原則:

????個體i的傾向得分為,在給定x-i的情況下,個體i進入處理組的條件概率p(xi)=P(Di=1|x=xi),簡記為p(x)。概率相近的個體便具有可比性,成為下一步分析的依據(jù)。

2.2匹配估計量的簡單例子:
匹配估計量的簡單例子.png

????這個是只有一個協(xié)變量x的估計,其中i=1,2,3是對照組,i=4,5,6,7是處理組。

  • 對于i=1這個個體,xi=2,處理組4~7中有個體i=5與之匹配,故\hat y_{01}=y_{01}=1,\hat y_{11}=y_{15}=8;
  • 對于i=2這個個體,xi=4,處理組4~7中最為相近的是4和6,故\hat y_{02}=y_{02}=8,\hat y_{12}=\left(y_{14}+y_{16}\right)/2=7.5;
  • 以此類推,最后算出所有個體參與培訓(xùn)、不參與培訓(xùn)的值,再求平均值:

ATT=[(8-7)+(7.5-8)+(7.5-6)+(9-7.5)+(8-7)+(6-7.5)+(5-7)]/7=-0.25

備注:匹配的過程一般都是計算機推導(dǎo)的,但是基本的原理要懂

3. 相似性的定義及其測度

3.1協(xié)變量的選擇

????我們用協(xié)變量來定義相似性:treat是干預(yù)變量,X是協(xié)變量,Y是結(jié)果變量。

(1)當(dāng)協(xié)變量不影響干預(yù)變量,但是影響結(jié)果變量時,引入?yún)f(xié)變量可以提高干預(yù)精度;

(2)當(dāng)協(xié)變量與結(jié)果變量沒關(guān)系,會增加標準誤差;

(3)當(dāng)遺漏重要的協(xié)變量,會導(dǎo)致偏差;

  • 因此,對結(jié)果有重要影響的協(xié)變量,無論是否對干預(yù)變量有影響,都應(yīng)該引入?yún)f(xié)變量作為匹配的依據(jù)。

(4)最后,協(xié)變量多來自已經(jīng)發(fā)表的文獻。有依據(jù)有出處即可。

3.2匹配方法-這是計算機做的,但是基本的思想需要了解

(1)近鄰匹配:

  • 1對1匹配:為每個干預(yù)組個體在控制組中尋找距離最近的個體來匹配。如果出現(xiàn)距離相同的個體,可以隨機選擇一個匹配,或按照排序后第一個出現(xiàn)的個體進行匹配。

???優(yōu)缺點:由于匹配樣本少,故估計方差大;每個匹配都是最近的,故偏差小

  • 1對多匹配:為每個干預(yù)組個體在控制組中尋找多個相似個體進行匹配

???優(yōu)缺點:匹配樣本多,估計精度提高;但與干預(yù)組個體匹配的第二個、第三個以及后邊的控制組個體與干預(yù)組個體相似度降低,故偏差會增加

  • 重復(fù)匹配:重復(fù)選擇控制組的樣本進行匹配,會降低最終匹配樣本的樣本量,估計精度下降

  • 貪婪匹配:關(guān)注單個樣本,要求每個干預(yù)組的個體都在控制組中找一個距離最近的,但這不一定是總體上最近的。

  • 最優(yōu)匹配:關(guān)注總體的偏差,即要求所有干預(yù)組個體同時進行匹配,尋找對所有干預(yù)組個體而言匹配上的總距離最小。因此如果關(guān)注平均因果效應(yīng),選擇貪婪匹配比較好;若關(guān)心每個個體的匹配效果,要選擇最優(yōu)匹配,這樣可以得到更加平衡的結(jié)果。

(2)卡尺匹配或半徑匹配

(3)核匹配

(4)局部線性回歸匹配

(5)樣條匹配

???經(jīng)驗①:最好進行一對四匹配,這樣可以使得均方誤差MES最小

???經(jīng)驗②:如果控制個體不多,應(yīng)選擇又放回匹配;如果控制組個體比較多,應(yīng)選擇核匹配

???經(jīng)驗③:嘗試不同的匹配方法,然后比較結(jié)果,結(jié)果相似說明很文件;如果結(jié)果差異比較大,需要深挖原因。

4. 匹配效果檢驗

4.1共同支撐檢驗

???首先是“共同支撐”的基本假定。在進行匹配時,為了提高匹配質(zhì)量,通過僅保留傾向得分重疊部分的個體(盡管這樣回損失樣本容量)。具體來說,共同支撐集中任一個體的得分都必須大于控制組和處理組最小傾向得分中較大的那個,同時還需要小于控制組和處理組最大傾向得分中較小的那個。如果傾向得分的共同取值范圍太小,則會導(dǎo)致偏差。

傾向得分的共同取值范圍.png

???然后是如何檢驗的問題。方法1是比較匹配前后的核密度圖,最好的結(jié)果是匹配之后兩條線很相近,這便代表“共同支撐集”范圍比較大。

核密度圖.png

???方法2是畫條形圖顯示傾向得分的共同取值范圍。下圖顯示了大多數(shù)觀測值都在共同取值范圍內(nèi),因此在匹配時僅會損失少量樣本。

傾向得分的共同取值范圍 .png
4.2 平衡性檢驗

???首先,平衡性檢驗的目的,是為了看看匹配后各個變量的均值有沒有明顯差異。主要看下表的三個數(shù)據(jù):

平衡性檢驗.png
  • 第一個數(shù)據(jù):匹配前后各個變量的均值是否有明顯差異(看Mean)。

  • 第二個數(shù)據(jù):或者看平衡后均值的偏差(看%bias),平衡后偏差小于10%,基本上是可以接受的。

  • 第三個數(shù)據(jù):看p值(或t值)。原假設(shè)是控制組與處理組沒有系統(tǒng)性的差異,只要p>0.05(或|t|<1.96),就無法拒絕原假設(shè),即可視為通過了平衡性檢驗。

5. PSM方法局限性

(1)大樣本

(2)要求處理組和控制組有較大的共同取值范圍

(3)要控制可觀測的變量,如果存在不可觀測的協(xié)變量,會導(dǎo)致“隱形偏差”

6. Stata命令及結(jié)果的查看

6.1 相關(guān)命令解讀

首先,基本命令的解讀。PSM命令的一般格式為:

psmatch2 D x1 x2 x3,outcome(y) logit ties ate common odds pscore(varname) qutetly

其中:

  • D為處理變量(treatment variable);

  • x1 x2 x3協(xié)變量,即得分依據(jù);

  • outcome(y)用來指定變量y作為結(jié)果變量(outcome variable);

  • logit是選項,說明指定logit來估計傾向得分,默認方法是probit;

  • ties表示包括所有傾向得分相同的并列個體,就是不剔除它們;

  • ate表示同時匯報ATE(總體的平均處理效應(yīng))、ATU(控制組的平均處理效應(yīng))、ATT(處理組的平均處理效應(yīng)),默認僅匯報ATT;

  • common表示僅對共同取值范圍內(nèi)的個體進行匹配,默認是對所有的個體進行匹配;

  • odds表示使用幾率比(勝率p/(1-p))進行匹配,默認就p進行匹配;

  • pscore(varname)用來指定某變量作為傾向得分,默認通過x1 x2 x3進行打分;

  • quietly表示不匯報對傾向得分的估計過程。

其次,psmatch2提供的不同的匹配方法。有:

(1)psmatch2 D x1 x2 x3, outcome(y)neighbor(k)noreplacement

K近鄰匹配。默認k=1,即進行一對一匹配。noreplacement表示進行無放回匹配,默認進行有放回匹配,這個選項只能用于一對一匹配。

(2)psmatch2 D x1 x2 x3,outcome(y) radius caliper(real)

卡尺匹配。其中radius表示進行卡尺匹配,其中caliper(real)用來指定卡尺\varepsilon ,必須是正實數(shù)。

(3)psmatch2 D x1 x2 x3,outcome(y)neighbor(k)caliper(real)

neighbor(k)caliper(real)表示卡尺內(nèi)的k近鄰匹配。

(4)psmatch2 D x1 x2 x3,outcome(y)kernel kerneltype(type)bwidth(real)

其中,kernel表示核匹配,kerneltype(type)用來指定核函數(shù),默認使用二次核(epan kernel),bwidth(real)用來指定帶寬,默認帶寬為0.06

(5)psmatch2 D x1 x2 x3,outcome(y) 11r kerneltype(type)bwidth(real)

選項11r表示進行局部線性回歸匹配,其中kerneltype(type)指定核函數(shù),默認用三三核(tricubic kernel),bwidth(real)指定帶寬,默認0.8

(6)psmatch2 D x1 x2 x3,outcome(y) spline。spline表示進行樣條匹配。

(7)psmatch2 D x1 x2 x3,outcome(y) mahal(varlist)ai(m)

Mahal(varlist)表示進行馬氏匹配,用于指定計算馬氏距離的協(xié)變量。ai(m)表示異方差文件標準誤,僅適用于馬氏距離的k近鄰匹配,m為正整數(shù),用于計算穩(wěn)健標準誤的近鄰個數(shù),一般可讓m=k。

最后是pamatch2的兩個估計后命令。有:

(1)pstest x1 x2 x3,both graph。該命令用來估計是否平衡。both表示同時顯示匹配前的數(shù)據(jù)平衡情況,默認只顯示匹配后的情形。graph筆試圖示各變量匹配前后的平衡情況

(2)psgraph,bin(#)。該命令是要畫直方圖來顯示傾向得分的共同取值范圍,選項bin(#)用來指定直方圖的分組數(shù),默認為20組。

6.2 案例應(yīng)用

完善ing…

參考資料:

(1)葵花寶典:陳強的《高計計量經(jīng)濟學(xué)及Stata應(yīng)用》第28章

(2)【計量地圖】傾向得分匹配法(PSM)理論、操作與案例:https://zhuanlan.zhihu.com/p/125752955

(3)模型系列-PSM(Stata實操):http://www.itdecent.cn/p/216c0beb6fb0

(4)傾向得分匹配、雙重差分傾向得分匹配(PSM、PSM-DID)-原理及stata實操(第一彈):https://www.bilibili.com/read/cv2545056/

(5)雙重差分傾向得分匹配(PSM-DID)-stata實操(第二彈):https://www.bilibili.com/read/cv4360682?from=articleDetail

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容