Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning 筆記
論文地址:Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning
摘要
??在實(shí)驗(yàn)和觀察性研究中, 異質(zhì)化的treatment的評(píng)估和分析受到了人們越來越多的關(guān)注。我們描述一些元算法,他們可以利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中的任何監(jiān)督學(xué)習(xí)或者回歸方法來評(píng)估條件處理效應(yīng)( Conditional Average Treatment Effect,CATE)函數(shù)。元算法建立在基本算法(隨機(jī)森林-RF、貝葉斯加權(quán)回歸樹-BART、神經(jīng)網(wǎng)絡(luò)的等)的基礎(chǔ)上評(píng)估CATE,該算法并沒有直接評(píng)估的基本算法。本文介紹了一種新的元算法-,該算法在treatment組數(shù)據(jù)遠(yuǎn)大于contal數(shù)據(jù)時(shí)也是有效的,并且利用了CATE的函數(shù)結(jié)構(gòu)特性。例如,如果CATE函數(shù)是線性的,并且在treatment和contal中響應(yīng)函數(shù)都是Lipschitz連續(xù),X-learner可以在正則條件下獲得參數(shù)率定(對(duì)參數(shù)進(jìn)行校準(zhǔn)測定,這里個(gè)人覺的就是在樣本不均衡下也可以到準(zhǔn)確的參數(shù)評(píng)估)。然后我們介紹了使用RF和CART作為基礎(chǔ)學(xué)習(xí)器的X-learner的版本。在廣泛的模擬研究中,雖然沒有一個(gè)元學(xué)習(xí)器效果始終是好的,但是X-learner總體上表現(xiàn)的很好。在政治學(xué)中的兩個(gè)說服性實(shí)驗(yàn)組,展示了X-learner如何用于teatment制度上,并闡明潛在的機(jī)制。
Lipschitz(利普希茨)連續(xù)定義:有函數(shù)
,如果存在一個(gè)常量
,使得對(duì)
f定義域上(可為實(shí)數(shù)也可以為復(fù)數(shù))的任意兩個(gè)值滿足如下條件:
那么稱函數(shù)滿足Lipschitz連續(xù)條件,并稱
為
的Lipschitz常數(shù)。Lipschitz連續(xù)比一致連續(xù)要強(qiáng)。它限制了函數(shù)的局部變動(dòng)幅度不能超過某常量
介紹
??隨著包含有關(guān)人類及其行為的細(xì)粒度的數(shù)據(jù)信息的增長,研究人員、商業(yè)、政客越來越關(guān)注treatment的效果的個(gè)人效果的不同性。他們希望可以比在隨機(jī)試驗(yàn)和觀察研究中通過估計(jì)評(píng)估實(shí)驗(yàn)效果(ATE,Average Treatment Effect)的數(shù)據(jù)更多的信息。取而代之是他們尋找評(píng)估CATE的個(gè)性化treatment方案和更好的理解因果機(jī)制。我們這里介紹了一個(gè)新的評(píng)估器:X-learner,并使用一個(gè)統(tǒng)一的元學(xué)習(xí)框架對(duì)它和其他的CATE評(píng)估器進(jìn)行表證。并通過兩個(gè)隨機(jī)試驗(yàn)數(shù)據(jù)集比較了他們的性能。
??在第一個(gè)隨機(jī)實(shí)驗(yàn),我們評(píng)估了郵件對(duì)選民投票率的影響,在第二個(gè)實(shí)驗(yàn)組,評(píng)估了上門交談對(duì)性別歧視的影響。實(shí)驗(yàn)組,發(fā)現(xiàn)treatment效果是不一樣的,我們通過CATE來量化這種差異。
??為了評(píng)估CATE,我們使用了統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的回歸或監(jiān)督學(xué)習(xí)的方法,這些方法已經(jīng)成功的廣泛被其他的應(yīng)用使用。具體的講,我們我們的元算法是基于二值的treatment實(shí)驗(yàn)。元學(xué)習(xí)器把估計(jì)CATE拆分為多個(gè)子回歸問題,然后這些問題可以用任何回歸或者監(jiān)督學(xué)習(xí)方法來解決。
??在大多場景評(píng)估異構(gòu)treatment效果的元算法中需要有兩個(gè)步驟。1)它使用基學(xué)習(xí)器分別評(píng)估treatment和contal結(jié)果的條件期望。 2)計(jì)算他們(treatment和contal)之間的差異。基學(xué)習(xí)器可以使用線性回歸或者基于樹的方法。當(dāng)使用樹學(xué)習(xí)器時(shí)被稱為Two-Tree評(píng)估,我們因此將這種方式稱為T-learner。“T”就是“two”的縮寫。
??另外一種評(píng)估CATE效果是利用所有的特征和treatment信號(hào)進(jìn)行訓(xùn)練模型。讓treatment信號(hào)為空時(shí)表示特殊情況,就是contral情況。預(yù)測CATE時(shí)是修改treatment信號(hào)的值進(jìn)行預(yù)測,兩次結(jié)果的差值作為最終的結(jié)果(就是把treatment當(dāng)做特征使用,訓(xùn)練一個(gè)模型,使用時(shí)先把treatment信號(hào)置為1預(yù)測一遍,在置為0預(yù)測一遍,兩個(gè)預(yù)測做差表示CATE)。這種元算法就是S-learner,“s”就是“single”的縮寫。
??不是所有的捕獲treatment異構(gòu)效果的方法都是元算法。例如,一些研究所人員通過估計(jì)有意義的子群體的評(píng)價(jià)treatment效果來分析效果的異構(gòu)性。例如文獻(xiàn)8中的因果森林。由于因果森林是基于RF的方法,因此在模擬研究中可以與RF的元算法進(jìn)行比較,并在結(jié)果中我們發(fā)現(xiàn)因果森林和基于RF的元算法表現(xiàn)的很好,但是也有其他的元算法效果也可以因果森林效果更好。
??本文的貢獻(xiàn)主要是引入了一種新的元算法:X-learner。它是建立在T-learner的基礎(chǔ)上,并將訓(xùn)練集中的每個(gè)觀測值用在一個(gè)類似“X”形狀的公式上。假設(shè)我們可以直接觀測到Treatment的效果,我們可以通過一些方法來刻畫這個(gè)CATE函數(shù)。但是在實(shí)際中我們的實(shí)驗(yàn)樣本不可能同時(shí)處于Treatment和control的,X-learner就是利用觀測到的結(jié)果來評(píng)估CATE的。
??與其他的CATE評(píng)估方式比,X-learner有兩個(gè)優(yōu)點(diǎn)。第一,它可以證明可適應(yīng)結(jié)構(gòu)性,例如CATE的的稀疏性或平滑性。這特別有用,因?yàn)镃ATE通常為0或者近似為線性。第二,當(dāng)一個(gè)treatment組(通常為control)的數(shù)據(jù)量比另外一個(gè)treatment大很多時(shí)特別有用,發(fā)展這種親口的原因是對(duì)照組的數(shù)據(jù)比較容易獲取。
框架和定義
??我們采用 Neyman–Rubin潛在結(jié)果框架,并假設(shè)一個(gè)超群體或分布,從中給出
個(gè)獨(dú)立的隨機(jī)變量作為訓(xùn)練集。即
,這里
表示的是一個(gè)d維的特征向量,
表示的是否是treatment,
表示的是對(duì)照組的結(jié)果,
表的treatment的結(jié)果。在這些符號(hào)表示下,平均treatment(ATE)效果可以表示為:
定義對(duì)照組的相應(yīng)和實(shí)驗(yàn)組的相應(yīng)
:
此外我們定義以下符號(hào)
這里是X的分布,
和
是獨(dú)立于X和W的非零均值隨機(jī)變量,
表示的是傾向得分(一個(gè)樣本被分配到treatment組的概率)。
??因果推斷的根本問題是,對(duì)于訓(xùn)練集中的每一個(gè)樣本,要么觀察到處于對(duì)照組()下的結(jié)果,要么觀察到處于實(shí)驗(yàn)組
下的結(jié)果,不能同時(shí)觀察到。因此我們將觀測數(shù)據(jù)定義為
.這里
是
決定的。為了避免所有的樣本都處于對(duì)照組或者實(shí)驗(yàn)組概率為一個(gè)極小的非零值問題,我們將根據(jù)treatment的樣本數(shù)量為條件來分析不同的評(píng)估器的效果差異。也就是說,對(duì)于一個(gè)固定的
,
,我們的條件是
。這樣使得我們根據(jù)實(shí)驗(yàn)組的樣本n、控制組的樣本m=N-n下來描述評(píng)估器的效果。
??對(duì)于一個(gè)具有特征的個(gè)體
,判定是否對(duì)其treatment,我們需要計(jì)算個(gè)體treatment效果(ITE, Individual Treatment Effect)
,定義為
然而,在實(shí)際中我們是觀察不到的,并且如果沒有強(qiáng)大的附加假設(shè)就無法識(shí)別
,我們雖然可以構(gòu)造數(shù)據(jù)生成過程與觀察數(shù)據(jù)的相同分布,但是卻和
的分布不同。所以,我們這評(píng)估CATE效果用以下定義
個(gè)人認(rèn)為,就是說單獨(dú)的個(gè)體treatment差異是無法評(píng)估到的,但是可以評(píng)估一組相同特征下的子群體treatment差異。
我們注意到CATE的最佳估計(jì)也是在最小均方誤差下的ITE的最佳估計(jì)。為了證明這點(diǎn),我們假設(shè)一個(gè)估計(jì)量
,然后分解為
。由于我們無法影響公式2中的第一項(xiàng),所以我們優(yōu)化最小CATE的MSE也就是優(yōu)化最小化ITE的MSE。
在本文中,我們最小化期望均方誤差(EMSE)來估計(jì)CATE。
.
這里的取決于
和
,
獨(dú)立于
。
??為了幫助我們估計(jì),我們假設(shè)這里沒有其他的混淆因素。
條件1
在特征相同的情況下,是否被treatment要獨(dú)立于結(jié)果誤差。
條件2 存在傾向得分的最小最大
邊界值,使得所有的
都符合,
元算法
??在這個(gè)章節(jié)中,我們正式的介紹元算法(元學(xué)習(xí)),它是以特征的方式組合監(jiān)督學(xué)習(xí)或回歸估計(jì),同時(shí)它允許采用任何形式的基學(xué)習(xí)器。元算法因此具有很高的靈活性,可以在不同的子問題中利用先驗(yàn)知識(shí)來評(píng)估CATE:可以選擇特定類型的數(shù)據(jù),可以直接利用現(xiàn)有的數(shù)據(jù)分析管道。
??我們首先會(huì)議一下S-learner 和T-learner,然后我們提出X-learner,這是一種可以利用不平衡(例如,實(shí)驗(yàn)組或者對(duì)照的樣本遠(yuǎn)大于另外一個(gè))數(shù)據(jù)的優(yōu)勢和CATE結(jié)構(gòu)的新元算法。
??T-learner分為兩個(gè)步驟,第一步,用一個(gè)基學(xué)習(xí)器來擬合對(duì)照組的相應(yīng)函數(shù),
基學(xué)習(xí)器可以在對(duì)照組的樣本采用任何監(jiān)督學(xué)習(xí)或者回歸估計(jì),我們用符號(hào)
表示。第二步,我們估計(jì)treatment的相應(yīng)函數(shù),
,
在實(shí)驗(yàn)組的數(shù)據(jù)上進(jìn)行訓(xùn)練,我們用符號(hào)來表示。那么T-learner可以通過以下公式得出:
?? S-learner,是否treatment是被當(dāng)做特征使用的。因此評(píng)估公式為,這里可以用任何基學(xué)習(xí)器,我們用
表示模型的估計(jì)量,因此CATE估計(jì)量表示為:
.
X-learner
這里我們提出X-learner并提供一個(gè)例子說明它的動(dòng)機(jī)。X-learner學(xué)習(xí)器可以分為三步
- 用任意的監(jiān)督學(xué)習(xí)或者回歸算法估計(jì)相應(yīng)函數(shù),用
和
表示估計(jì)量。
,
- 根據(jù)對(duì)照組的模型來計(jì)算實(shí)驗(yàn)組中的個(gè)人treatment效果,根據(jù)實(shí)驗(yàn)組的模型來計(jì)算實(shí)驗(yàn)最中的個(gè)人treatment效果。用公式表示為:
,
注意到,如果和
,則
??使用任意的監(jiān)督學(xué)習(xí)或者回歸算法計(jì)算有兩種方式:一種是利用treatment組訓(xùn)練的模型計(jì)算得到的
,另一種是利用對(duì)照組訓(xùn)練的模型計(jì)算得到的
.
- 通過階段2中計(jì)算得到的兩個(gè)估計(jì)量進(jìn)行加權(quán)計(jì)算CATE估計(jì)量:
這里是一個(gè)權(quán)重函數(shù)。
備注1 和
都是
的估計(jì)量,而
是把這些估計(jì)量合在一起提高
的準(zhǔn)確度。根據(jù)我們的經(jīng)驗(yàn),我們發(fā)現(xiàn)傾向得分作為
是很好的,所以選擇
,如果在實(shí)驗(yàn)組和對(duì)照組的樣本數(shù)據(jù)比例很大或者很小時(shí),選擇
或者
也是有意義的。對(duì)于某些估計(jì)量來說,它有可能估計(jì)
和
的協(xié)方差矩陣,然后選擇
來最小化
。
元學(xué)習(xí)器背后的直覺(動(dòng)機(jī))
??X-learner可以使用對(duì)照組的信息來為實(shí)驗(yàn)組服務(wù)得到更好的估計(jì)量,反之亦然。我們通過一個(gè)簡單的例子來說明這個(gè)。假設(shè)我們想要研究一種treatment的效果,我們用CATE估計(jì)量來作為x的單變量函數(shù)。然而,我們發(fā)現(xiàn)實(shí)驗(yàn)組的樣本很少,對(duì)照組的樣本很多。這種情況出現(xiàn)在行政管理和在線數(shù)據(jù)中:對(duì)照組的數(shù)據(jù)要比實(shí)驗(yàn)組的數(shù)據(jù)豐富的多。Fig1(a)現(xiàn)實(shí)了實(shí)驗(yàn)組的結(jié)果(圓圈)和對(duì)照組的結(jié)果(叉號(hào))。在這個(gè)例子中CATE是常量且等于1。這里是人工模型數(shù)據(jù)生成的.

??目前讓我們只看實(shí)驗(yàn)組(treatment)的結(jié)果,當(dāng)我們估計(jì)時(shí),我們必須注意不用出現(xiàn)過擬合,因?yàn)槲覀冎挥?0個(gè)樣本。我們可能打算使用線性模型,(虛線)來評(píng)估。對(duì)于對(duì)照組,我們注意到當(dāng)區(qū)間的觀測值似乎是不同的,最終我們用一個(gè)在之間跳躍的分段線性函數(shù)來建模(實(shí)線)。這是一個(gè)相對(duì)復(fù)雜的函數(shù),因?yàn)橛泻芏鄶?shù)據(jù)我們不擔(dān)心過擬合問題。
??在T-learner模型現(xiàn)在將計(jì)算(見Fig1中C的實(shí)線部分),這是一個(gè)在跳躍的相對(duì)復(fù)雜的函數(shù),然而真實(shí)的是一個(gè)常量。所以這里是有問題的,因?yàn)槲覀児烙?jì)CATE方程時(shí)是基于只有10個(gè)樣本的實(shí)驗(yàn)組訓(xùn)練的模型。(換句話就是,實(shí)驗(yàn)組的樣本太少,計(jì)算的
這里指出T-learner在實(shí)驗(yàn)組和對(duì)照組樣本極不均勻時(shí)的預(yù)測的錯(cuò)誤CATE結(jié)果
??在選擇計(jì)算treatment組的預(yù)測值時(shí)選擇了一個(gè)比較好的估計(jì)量,正確的避免了過擬合,最終我們選擇了一個(gè)相對(duì)復(fù)雜的CATE評(píng)估方式。我們可以選擇一個(gè)在0到0.5之間跳躍的分段線性函數(shù),但是當(dāng)只考慮treatment組時(shí)這顯然是不合理的。但是,如果我們還要考慮對(duì)照組的,則這種公式將是自然選擇。換句話說,我們應(yīng)該改變和
,希望以這種方式估算他們的差是對(duì)
的良好的估計(jì)。
這里是說我們計(jì)算treatment效果時(shí)用到了對(duì)照組的模型,如果只考慮treatment組這是不合理的。但是我們的目標(biāo)不是找treatment和control,而是找treatment和control的差,通過這種方式可以更好的擬合
。
X-learner使得我們可以做到這一點(diǎn)。它使我們能夠利用CATE結(jié)構(gòu)信息來高效的利用結(jié)構(gòu)的不平衡設(shè)計(jì)。X-learner第一階段時(shí)和T-learner相同的,但是第二階段,從reatment的觀測結(jié)果減去對(duì)照組訓(xùn)練的模型估計(jì)量,從實(shí)驗(yàn)組訓(xùn)練的模型減去對(duì)照組的觀測結(jié)果,從而估算出treatment的結(jié)果。,
。
這里我們用和
分別表示對(duì)照組和實(shí)驗(yàn)組的觀測結(jié)果,
和
分別是相應(yīng)的特征向量。Fig1(b)展示了計(jì)算treatment的效果
。根據(jù)公式7、8 可以計(jì)算出
和
。然后再利用以下公式計(jì)算出最終的評(píng)估結(jié)果。
這里計(jì)算
是利用實(shí)驗(yàn)組的觀測數(shù)據(jù)減去對(duì)照組模型預(yù)測的結(jié)果,
是利用實(shí)驗(yàn)組模型預(yù)測結(jié)果減去對(duì)照組的觀測數(shù)據(jù)。要說明的是
(fig1_b中藍(lán)線)計(jì)算的更準(zhǔn)確一些,因?yàn)閷?duì)照組模型是準(zhǔn)確的,但是實(shí)驗(yàn)組模型是過擬合的。所以fig1(b)藍(lán)線更接近正確值(treatment真實(shí)效果為1)。
如果我們選擇,即使用傾向得分作為
,
將和
非常相似,因?yàn)槲覀冊趯?duì)照組中有更多的觀察結(jié)果,即
很小。Fig1(c)顯示了T-learner和X-learner的效果。
??在這個(gè)例子中我們選擇S-learner很難評(píng)估,因?yàn)槿绻庞蠷F的基學(xué)習(xí)器進(jìn)行訓(xùn)練時(shí),S-learner第一個(gè)分裂可能把97.5%的實(shí)驗(yàn)組的樣本分裂出去,造成后續(xù)分裂時(shí)缺少實(shí)驗(yàn)組的樣本。
換句話說就是實(shí)驗(yàn)組和對(duì)照組的樣本比例極不均衡時(shí),如果使用S-learner訓(xùn)練時(shí)幾次分裂就會(huì)把所有的實(shí)驗(yàn)組樣本使用完。
仿真結(jié)果(略)
這里說元算法的基學(xué)習(xí)器的選擇會(huì)最對(duì)最終的結(jié)果有很大的不同。
指出S-learner是否treatment當(dāng)做和其他特征一樣的權(quán)重是不是最明智的。
指出T-learner沒有合并實(shí)驗(yàn)組和對(duì)照組,這對(duì)預(yù)測CATE是不利的,因?yàn)橹皇菙M合各自的數(shù)據(jù)集,沒有表現(xiàn)出實(shí)驗(yàn)組和對(duì)照組之間的相應(yīng)功能。
指出當(dāng)實(shí)驗(yàn)組和對(duì)照組的樣本非常不均衡時(shí),X-learner是牛逼的。
收斂速度比較(略)
應(yīng)用(略)
通過2個(gè)數(shù)據(jù)證明X-learner的優(yōu)越性。
結(jié)論
這篇文章綜述了CATE估計(jì)的元算法,包括S-learner和T-learner。然后提出了一個(gè)新的X-learner,它可以將任何監(jiān)督學(xué)習(xí)或者回歸算法組合轉(zhuǎn)換來評(píng)估CATE。X-learner適合于各種場景,例如當(dāng)實(shí)驗(yàn)組數(shù)據(jù)要比對(duì)照組數(shù)據(jù)多出很多時(shí),理論和數(shù)據(jù)均表明X-learner能夠很好的擬合treatment的效果。
附錄:


