一文掌握傾向性評(píng)分PSM進(jìn)行數(shù)據(jù)匹配

propensity score matching (PSM) 傾向性評(píng)分

文章內(nèi)容包括

  • PSM的基本背景知識(shí)
  • 運(yùn)用R包(2個(gè))實(shí)例演示進(jìn)行數(shù)據(jù)的1:1, 1:2匹配。只要數(shù)據(jù)調(diào)教運(yùn)行1:2匹配也是可以的。
  • 部分檢驗(yàn)協(xié)變量分布平衡的可視化
  • 運(yùn)用數(shù)據(jù)全部是R中的自帶數(shù)據(jù),參考資料是R包的文檔及相關(guān)網(wǎng)絡(luò)資源匯總放在最后
  • 請(qǐng)?zhí)貏e注意,如果有朋友付費(fèi),請(qǐng)謹(jǐn)慎考慮,學(xué)習(xí)是要付出時(shí)間的,沒有你想象中的看一下就會(huì)了發(fā)文章了;理性付費(fèi),不要付費(fèi)完覺得不值得,然后很自己很難受,覺得被欺騙了,這樣太不值得了。

基本背景與原理理解

  • 在觀察數(shù)據(jù)的統(tǒng)計(jì)分析中,傾向評(píng)分匹配(PSM)是一種統(tǒng)計(jì)匹配方法,旨在通過考慮治療組和對(duì)照組的協(xié)變量來嘗試估計(jì)治療,政策或其他干預(yù)措施的效果。Paul Rosenbaum 和 Donald Rubin 在1983年介紹了該方法。
  • 在觀測(cè)性研究中,暴露組與非暴露組(treat 和 control)通常無法進(jìn)行等同于隨機(jī)分組 ,協(xié)變量在組間不均衡,影響分析結(jié)果,而傾向性評(píng)分法PSM則可以幫助控制混雜因素不均衡的問題。PSM試圖減少由于混淆變量而造成的偏差。
  • 在隨機(jī)實(shí)驗(yàn)中(RCT),隨機(jī)化可以無偏估計(jì)治療效果。對(duì)于每個(gè)協(xié)變量治療組與對(duì)照組將平均保持平衡。不幸的是,對(duì)于觀察性研究,對(duì)研究對(duì)象的治療分配通常不是隨機(jī)的。通過匹配分組變量,使協(xié)變量在分組變量均衡來模擬RCT的隨機(jī)化的方法來減小誤差就是PSM的目的。
  • 例如,我們對(duì)吸煙進(jìn)行的觀察性研究,我們不可能把人隨機(jī)分配到“吸煙”治療。僅將吸煙者與不吸煙者進(jìn)行比較而得出的治療效果可能會(huì)受到任何預(yù)測(cè)吸煙的因素(例如性別和年齡)的影響。PSM試圖通過使暴露和非暴露的組在控制變量方面具有可比性來控制這些偏差。

傾向性評(píng)分R操作演示

MatchIt包

  • 1:1匹配
### 傾向性評(píng)分 PSM 
library(MatchIt)
data("lalonde")
head(lalonde)
##      treat age educ black hispan married nodegree re74 re75       re78
## NSW1     1  37   11     1      0       1        1    0    0  9930.0460
## NSW2     1  22    9     0      1       0        1    0    0  3595.8940
## NSW3     1  30   12     1      0       0        0    0    0 24909.4500
## NSW4     1  27   11     1      0       0        1    0    0  7506.1460
## NSW5     1  33    8     1      0       0        1    0    0   289.7899
## NSW6     1  22    9     1      0       0        1    0    0  4056.4940
dim(lalonde)
## [1] 614  10

PSM評(píng)分匹配matchit

  • 默認(rèn)是method = “nearest”算法,這些就是你選擇什么方法來進(jìn)行匹配,大概了解下即可。
  • method=“exact”,精確匹配最簡單的匹配版本是精確的。這種方法將每個(gè)處理單元與所有協(xié)變量上具有完全相同值的所有可能的控制單元匹配,形成子類,使每個(gè)子類中的所有單元(處理和對(duì)照)具有相同的協(xié)變量值。
  • method = “subclass”當(dāng)有許多協(xié)變量(或一些協(xié)變量可以取大量值)時(shí),往往不可能找到足夠的精確匹配。子分類的目的是形成子類,這樣在每個(gè)子類中,處理組和對(duì)照組的協(xié)變量的分布(而不是確切的值)盡可能相似
  • method = “optimal”,“最優(yōu)”匹配發(fā)現(xiàn)匹配的樣本在所有匹配對(duì)之間的平均絕對(duì)距離最小
  • method = “full”.完全匹配的樣本由匹配的集合組成,其中每個(gè)匹配的集合包含一個(gè)處理單元和一個(gè)或多個(gè)控件(或一個(gè)控制單元和一個(gè)或多個(gè)處理單元)。
  • method = “genetic”,其思想是使用genetic搜索算法為每個(gè)協(xié)變量找到一組權(quán)重,以便在匹配后達(dá)到最優(yōu)平衡的版本
  • method = “cem” 這意味著處理組和對(duì)照組之間的平衡是由用戶事先選擇的,而不是通過通常的事后檢查和反復(fù)重新估計(jì)的費(fèi)力過程來發(fā)現(xiàn)的,因此調(diào)整一個(gè)變量上的不平衡對(duì)任何其他變量的最大不平衡都沒有影響
還有 94% 的精彩內(nèi)容
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
支付 ¥59.90 繼續(xù)閱讀

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容