X-learner:Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning

Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning 筆記

論文地址:Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning

摘要

??在實(shí)驗(yàn)和觀察性研究中, 異質(zhì)化的treatment的評(píng)估和分析受到了人們越來越多的關(guān)注。我們描述一些元算法,他們可以利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中的任何監(jiān)督學(xué)習(xí)或者回歸方法來評(píng)估條件處理效應(yīng)( Conditional Average Treatment Effect,CATE)函數(shù)。元算法建立在基本算法(隨機(jī)森林-RF、貝葉斯加權(quán)回歸樹-BART、神經(jīng)網(wǎng)絡(luò)的等)的基礎(chǔ)上評(píng)估CATE,該算法并沒有直接評(píng)估的基本算法。本文介紹了一種新的元算法-\color{red}{X-learner},該算法在treatment組數(shù)據(jù)遠(yuǎn)大于contal數(shù)據(jù)時(shí)也是有效的,并且利用了CATE的函數(shù)結(jié)構(gòu)特性。例如,如果CATE函數(shù)是線性的,并且在treatment和contal中響應(yīng)函數(shù)都是Lipschitz連續(xù),X-learner可以在正則條件下獲得參數(shù)率定(對(duì)參數(shù)進(jìn)行校準(zhǔn)測定,這里個(gè)人覺的就是在樣本不均衡下也可以到準(zhǔn)確的參數(shù)評(píng)估)。然后我們介紹了使用RF和CART作為基礎(chǔ)學(xué)習(xí)器的X-learner的版本。在廣泛的模擬研究中,雖然沒有一個(gè)元學(xué)習(xí)器效果始終是好的,但是X-learner總體上表現(xiàn)的很好。在政治學(xué)中的兩個(gè)說服性實(shí)驗(yàn)組,展示了X-learner如何用于teatment制度上,并闡明潛在的機(jī)制。

Lipschitz(利普希茨)連續(xù)定義:有函數(shù)f(x),如果存在一個(gè)常量K,使得對(duì)f(x)f定義域上(可為實(shí)數(shù)也可以為復(fù)數(shù))的任意兩個(gè)值滿足如下條件:
|f(x_1)-f(x_2)| \leq |x_1-x_2|*K
那么稱函數(shù)f(x)滿足Lipschitz連續(xù)條件,并稱Kf(x)的Lipschitz常數(shù)。Lipschitz連續(xù)比一致連續(xù)要強(qiáng)。它限制了函數(shù)的局部變動(dòng)幅度不能超過某常量

介紹

??隨著包含有關(guān)人類及其行為的細(xì)粒度的數(shù)據(jù)信息的增長,研究人員、商業(yè)、政客越來越關(guān)注treatment的效果的個(gè)人效果的不同性。他們希望可以比在隨機(jī)試驗(yàn)和觀察研究中通過估計(jì)評(píng)估實(shí)驗(yàn)效果(ATE,Average Treatment Effect)的數(shù)據(jù)更多的信息。取而代之是他們尋找評(píng)估CATE的個(gè)性化treatment方案和更好的理解因果機(jī)制。我們這里介紹了一個(gè)新的評(píng)估器:X-learner,并使用一個(gè)統(tǒng)一的元學(xué)習(xí)框架對(duì)它和其他的CATE評(píng)估器進(jìn)行表證。并通過兩個(gè)隨機(jī)試驗(yàn)數(shù)據(jù)集比較了他們的性能。
??在第一個(gè)隨機(jī)實(shí)驗(yàn),我們評(píng)估了郵件對(duì)選民投票率的影響,在第二個(gè)實(shí)驗(yàn)組,評(píng)估了上門交談對(duì)性別歧視的影響。實(shí)驗(yàn)組,發(fā)現(xiàn)treatment效果是不一樣的,我們通過CATE來量化這種差異。
??為了評(píng)估CATE,我們使用了統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的回歸或監(jiān)督學(xué)習(xí)的方法,這些方法已經(jīng)成功的廣泛被其他的應(yīng)用使用。具體的講,我們我們的元算法是基于二值的treatment實(shí)驗(yàn)。元學(xué)習(xí)器把估計(jì)CATE拆分為多個(gè)子回歸問題,然后這些問題可以用任何回歸或者監(jiān)督學(xué)習(xí)方法來解決。
??在大多場景評(píng)估異構(gòu)treatment效果的元算法中需要有兩個(gè)步驟。1)它使用基學(xué)習(xí)器分別評(píng)估treatment和contal結(jié)果的條件期望。 2)計(jì)算他們(treatment和contal)之間的差異。基學(xué)習(xí)器可以使用線性回歸或者基于樹的方法。當(dāng)使用樹學(xué)習(xí)器時(shí)被稱為Two-Tree評(píng)估,我們因此將這種方式稱為T-learner。“T”就是“two”的縮寫。
??另外一種評(píng)估CATE效果是利用所有的特征和treatment信號(hào)進(jìn)行訓(xùn)練模型。讓treatment信號(hào)為空時(shí)表示特殊情況,就是contral情況。預(yù)測CATE時(shí)是修改treatment信號(hào)的值進(jìn)行預(yù)測,兩次結(jié)果的差值作為最終的結(jié)果(就是把treatment當(dāng)做特征使用,訓(xùn)練一個(gè)模型,使用時(shí)先把treatment信號(hào)置為1預(yù)測一遍,在置為0預(yù)測一遍,兩個(gè)預(yù)測做差表示CATE)。這種元算法就是S-learner,“s”就是“single”的縮寫。
??不是所有的捕獲treatment異構(gòu)效果的方法都是元算法。例如,一些研究所人員通過估計(jì)有意義的子群體的評(píng)價(jià)treatment效果來分析效果的異構(gòu)性。例如文獻(xiàn)8中的因果森林。由于因果森林是基于RF的方法,因此在模擬研究中可以與RF的元算法進(jìn)行比較,并在結(jié)果中我們發(fā)現(xiàn)因果森林和基于RF的元算法表現(xiàn)的很好,但是也有其他的元算法效果也可以因果森林效果更好。
??本文的貢獻(xiàn)主要是引入了一種新的元算法:X-learner。它是建立在T-learner的基礎(chǔ)上,并將訓(xùn)練集中的每個(gè)觀測值用在一個(gè)類似“X”形狀的公式上。假設(shè)我們可以直接觀測到Treatment的效果,我們可以通過一些方法來刻畫這個(gè)CATE函數(shù)。但是在實(shí)際中我們的實(shí)驗(yàn)樣本不可能同時(shí)處于Treatment和control的,X-learner就是利用觀測到的結(jié)果來評(píng)估CATE的。
??與其他的CATE評(píng)估方式比,X-learner有兩個(gè)優(yōu)點(diǎn)。第一,它可以證明可適應(yīng)結(jié)構(gòu)性,例如CATE的的稀疏性或平滑性。這特別有用,因?yàn)镃ATE通常為0或者近似為線性。第二,當(dāng)一個(gè)treatment組(通常為control)的數(shù)據(jù)量比另外一個(gè)treatment大很多時(shí)特別有用,發(fā)展這種親口的原因是對(duì)照組的數(shù)據(jù)比較容易獲取。

框架和定義

??我們采用 Neyman–Rubin潛在結(jié)果框架,并假設(shè)一個(gè)超群體或分布P,從中給出N個(gè)獨(dú)立的隨機(jī)變量作為訓(xùn)練集。即(Y_i(0),Y_i(1),X_i,W_i ) \sim \mathcal{P},這里X_i \in \mathbb{R^d}表示的是一個(gè)d維的特征向量,W_i \in {0,1}表示的是否是treatment, Y_i(0) \in \mathbb{R}表示的是對(duì)照組的結(jié)果,Y_i(1) \in \mathbb{R}表的treatment的結(jié)果。在這些符號(hào)表示下,平均treatment(ATE)效果可以表示為:ATE:=\mathbb{E}[Y(1)-Y(0)]
定義對(duì)照組的相應(yīng)\mu_0和實(shí)驗(yàn)組的相應(yīng)\mu_1:\mu_0(x):=\mathbb{E}[Y(0)|X=x],\mu_1(x):=\mathbb{E}[Y(1)|X=x]
此外我們定義以下符號(hào)
\begin{split} X \sim \Lambda, \\ W \sim Bern(e(X)), \\ Y(0)=\mu_0(X)+\varepsilon(0), \\ Y(1)=\mu_1(X)+\varepsilon(1) \\ \end{split} \tag{1}
這里\Lambda是X的分布,\varepsilon(0)\varepsilon(1)是獨(dú)立于X和W的非零均值隨機(jī)變量,e(x)= \mathbb{P}(W=1|X=x)表示的是傾向得分(一個(gè)樣本被分配到treatment組的概率)。
??因果推斷的根本問題是,對(duì)于訓(xùn)練集中的每一個(gè)樣本,要么觀察到處于對(duì)照組(W_i=0)下的結(jié)果,要么觀察到處于實(shí)驗(yàn)組(W_i=1)下的結(jié)果,不能同時(shí)觀察到。因此我們將觀測數(shù)據(jù)定義為\mathcal{D}=(Y_i,X_i,W_i)_{1\leq{i} \leq{N}}.這里\mathcal{D}\mathcal{P}決定的。為了避免所有的樣本都處于對(duì)照組或者實(shí)驗(yàn)組概率為一個(gè)極小的非零值問題,我們將根據(jù)treatment的樣本數(shù)量為條件來分析不同的評(píng)估器的效果差異。也就是說,對(duì)于一個(gè)固定的n,0<n<N ,我們的條件是\sum_{i=1}^N{W_i}=n。這樣使得我們根據(jù)實(shí)驗(yàn)組的樣本n、控制組的樣本m=N-n下來描述評(píng)估器的效果。
??對(duì)于一個(gè)具有特征x_i的個(gè)體i,判定是否對(duì)其treatment,我們需要計(jì)算個(gè)體treatment效果(ITE, Individual Treatment Effect) D_i,定義為
D_i :=Y_i(1)-Y_i(0)
然而,在實(shí)際中我們是觀察不到D_i的,并且如果沒有強(qiáng)大的附加假設(shè)就無法識(shí)別D_i,我們雖然可以構(gòu)造數(shù)據(jù)生成過程與觀察數(shù)據(jù)的相同分布,但是卻和D_i的分布不同。所以,我們這評(píng)估CATE效果用以下定義
\tau(x) := \mathbb{E}[D|X=x]=\mathbb{E}[Y(1)-Y(0)|X=x]
個(gè)人認(rèn)為,就是說單獨(dú)的個(gè)體treatment差異是無法評(píng)估到的,但是可以評(píng)估一組相同特征下的子群體treatment差異。
我們注意到CATE的最佳估計(jì)也是在最小均方誤差下的ITE的最佳估計(jì)。為了證明這點(diǎn),我們假設(shè)D_i一個(gè)估計(jì)量\hat{\tau_i},然后分解為
\mathbb{E}[(D_i-\hat{\tau_i} )^2|X_i=x_i]=\mathbb{E}[(D_i-\tau(x_i))^2|X_i=x_i]+\mathbb{E}[(\tau(x_i)-\hat{\tau_i})^2] \tag{2}。由于我們無法影響公式2中的第一項(xiàng),所以我們優(yōu)化最小CATE的MSE也就是優(yōu)化最小化ITE的MSE。
在本文中,我們最小化期望均方誤差(EMSE)來估計(jì)CATE。
EMSE(\mathcal{P},\hat{\tau}) = \mathbb{E}[(\tau(\mathcal{X}-\hat{\tau(\mathcal{X}})^2].
這里的\mathbb{E}取決于\hat{\tau}\mathcal{X} \sim \Lambda,\mathcal{X}獨(dú)立于\hat{\tau}
??為了幫助我們估計(jì)\tau,我們假設(shè)這里沒有其他的混淆因素。
條件1 (\varepsilon(0),\varepsilon(1)) \bot W|X
在特征相同的情況下,是否被treatment要獨(dú)立于結(jié)果誤差。
條件2 存在傾向得分的最小e_{min}最大e_{max}邊界值,使得所有的x都符合,0<e_{min}<e(x)<e_{max}<1

元算法

??在這個(gè)章節(jié)中,我們正式的介紹元算法(元學(xué)習(xí)),它是以特征的方式組合監(jiān)督學(xué)習(xí)或回歸估計(jì),同時(shí)它允許采用任何形式的基學(xué)習(xí)器。元算法因此具有很高的靈活性,可以在不同的子問題中利用先驗(yàn)知識(shí)來評(píng)估CATE:可以選擇特定類型的數(shù)據(jù),可以直接利用現(xiàn)有的數(shù)據(jù)分析管道。
??我們首先會(huì)議一下S-learner 和T-learner,然后我們提出X-learner,這是一種可以利用不平衡(例如,實(shí)驗(yàn)組或者對(duì)照的樣本遠(yuǎn)大于另外一個(gè))數(shù)據(jù)的優(yōu)勢和CATE結(jié)構(gòu)的新元算法。
??T-learner分為兩個(gè)步驟,第一步,用一個(gè)基學(xué)習(xí)器來擬合對(duì)照組的相應(yīng)函數(shù),\mu_0(x)=\mathbb{E}[Y(0)|X=x]
基學(xué)習(xí)器可以在對(duì)照組的樣本{(X_i,Y_i)}_{W_i=0}采用任何監(jiān)督學(xué)習(xí)或者回歸估計(jì),我們用符號(hào)\hat{\mu_0}表示。第二步,我們估計(jì)treatment的相應(yīng)函數(shù),\mu_1(x)=\mathbb{E}[Y(1)|X=x],
在實(shí)驗(yàn)組的數(shù)據(jù)上進(jìn)行訓(xùn)練,我們用符號(hào)\hat{\mu_1}來表示。那么T-learner可以通過以下公式得出:
\hat{\tau_T}(x)=\hat{\mu_1}(x) -\hat{\mu_0}(x) \\ \tag{3}

?? S-learner,是否treatment是被當(dāng)做特征使用的。因此評(píng)估公式為\mu(x,w) := \mathbb{E}[Y^{abs}|X=x,W=w],這里可以用任何基學(xué)習(xí)器,我們用\hat{\mu}表示模型的估計(jì)量,因此CATE估計(jì)量表示為:\hat{\tau_S}(x) =\hat{\mu}(x,1) -\hat{\mu}(x,0) \tag{4}.

X-learner

這里我們提出X-learner并提供一個(gè)例子說明它的動(dòng)機(jī)。X-learner學(xué)習(xí)器可以分為三步

  1. 用任意的監(jiān)督學(xué)習(xí)或者回歸算法估計(jì)相應(yīng)函數(shù),用\hat{\mu_0}\hat{\mu_1}表示估計(jì)量。
    \mu_0 = \mathbb{E}[Y(0)|X=x] \tag{5}, \mu_1 = \mathbb{E}[Y(1)|X=x] \tag{6}
  2. 根據(jù)對(duì)照組的模型來計(jì)算實(shí)驗(yàn)組中的個(gè)人treatment效果,根據(jù)實(shí)驗(yàn)組的模型來計(jì)算實(shí)驗(yàn)最中的個(gè)人treatment效果。用公式表示為:
    \tilde{D_i^1} :=Y_i^1-\hat{\mu_0}(X_i^1) \tag{7},
    \tilde{D_i^0} :=\hat{\mu_1}(X_i^0)-Y_i^0 \tag{8}
    注意到,如果\hat{\mu_0}=\mu_0\hat{\mu_1}=\mu_1,則\tau(x)=\mathbb{E}[\tilde{D^1}|X=x]=\mathbb{E}[\tilde{D^0}|X=x]
    ??使用任意的監(jiān)督學(xué)習(xí)或者回歸算法計(jì)算\tau(x)有兩種方式:一種是利用treatment組訓(xùn)練的模型計(jì)算得到的\hat{\tau_1}(x),另一種是利用對(duì)照組訓(xùn)練的模型計(jì)算得到的\hat{\tau_0}(x).
  3. 通過階段2中計(jì)算得到的兩個(gè)估計(jì)量進(jìn)行加權(quán)計(jì)算CATE估計(jì)量:
    \hat{\tau}(x)=g(x)\hat{\tau_0}(x)+(1-g(x))\hat{\tau_1}(x) \tag{9}
    這里g \in [0,1] 是一個(gè)權(quán)重函數(shù)。

備注1 \hat{\tau_0}\hat{\tau_1}都是\tau的估計(jì)量,而g是把這些估計(jì)量合在一起提高\hat{\tau}的準(zhǔn)確度。根據(jù)我們的經(jīng)驗(yàn),我們發(fā)現(xiàn)傾向得分作為g是很好的,所以選擇g=\hat{e},如果在實(shí)驗(yàn)組和對(duì)照組的樣本數(shù)據(jù)比例很大或者很小時(shí),選擇g=1或者g=0也是有意義的。對(duì)于某些估計(jì)量來說,它有可能估計(jì)\hat{\tau_0}\hat{\tau_1}的協(xié)方差矩陣,然后選擇g來最小化\hat{\tau}。

元學(xué)習(xí)器背后的直覺(動(dòng)機(jī))

??X-learner可以使用對(duì)照組的信息來為實(shí)驗(yàn)組服務(wù)得到更好的估計(jì)量,反之亦然。我們通過一個(gè)簡單的例子來說明這個(gè)。假設(shè)我們想要研究一種treatment的效果,我們用CATE估計(jì)量來作為x的單變量函數(shù)。然而,我們發(fā)現(xiàn)實(shí)驗(yàn)組的樣本很少,對(duì)照組的樣本很多。這種情況出現(xiàn)在行政管理和在線數(shù)據(jù)中:對(duì)照組的數(shù)據(jù)要比實(shí)驗(yàn)組的數(shù)據(jù)豐富的多。Fig1(a)現(xiàn)實(shí)了實(shí)驗(yàn)組的結(jié)果(圓圈)和對(duì)照組的結(jié)果(叉號(hào))。在這個(gè)例子中CATE是常量且等于1。這里是人工模型數(shù)據(jù)生成的.

用一個(gè)不平衡的樣本案例描述X-learner背后直覺

??目前讓我們只看實(shí)驗(yàn)組(treatment)的結(jié)果,當(dāng)我們估計(jì)時(shí),我們必須注意不用出現(xiàn)過擬合,因?yàn)槲覀冎挥?0個(gè)樣本。我們可能打算使用線性模型,(虛線)來評(píng)估。對(duì)于對(duì)照組,我們注意到當(dāng)區(qū)間的觀測值似乎是不同的,最終我們用一個(gè)在之間跳躍的分段線性函數(shù)來建模(實(shí)線)。這是一個(gè)相對(duì)復(fù)雜的函數(shù),因?yàn)橛泻芏鄶?shù)據(jù)我們不擔(dān)心過擬合問題。
??在T-learner模型現(xiàn)在將計(jì)算(見Fig1中C的實(shí)線部分),這是一個(gè)在跳躍的相對(duì)復(fù)雜的函數(shù),然而真實(shí)的是一個(gè)常量。所以這里是有問題的,因?yàn)槲覀児烙?jì)CATE方程時(shí)是基于只有10個(gè)樣本的實(shí)驗(yàn)組訓(xùn)練的模型。(換句話就是,實(shí)驗(yàn)組的樣本太少,計(jì)算的\hat{\mu_1}是不準(zhǔn)確的,從而利用\hat{\tau_T}(x)=\hat{\mu_1}(x)-\hat{\mu_0}(x)計(jì)算的\hat{\tau}也是不準(zhǔn)確的)。

這里指出T-learner在實(shí)驗(yàn)組和對(duì)照組樣本極不均勻時(shí)的預(yù)測的錯(cuò)誤CATE結(jié)果

??在選擇計(jì)算treatment組的預(yù)測值時(shí)選擇了一個(gè)比較好的估計(jì)量,正確的避免了過擬合,最終我們選擇了一個(gè)相對(duì)復(fù)雜的CATE評(píng)估方式。我們可以選擇一個(gè)在0到0.5之間跳躍的分段線性函數(shù),但是當(dāng)只考慮treatment組時(shí)這顯然是不合理的。但是,如果我們還要考慮對(duì)照組的,則這種公式將是自然選擇。換句話說,我們應(yīng)該改變\mu_1\mu_0,希望以這種方式估算他們的差是對(duì)\tau的良好的估計(jì)。

這里是說我們計(jì)算treatment效果時(shí)用到了對(duì)照組的模型,如果只考慮treatment組這是不合理的。但是我們的目標(biāo)不是找treatment和control,而是找treatment和control的差,通過這種方式可以更好的擬合\tau。

X-learner使得我們可以做到這一點(diǎn)。它使我們能夠利用CATE結(jié)構(gòu)信息來高效的利用結(jié)構(gòu)的不平衡設(shè)計(jì)。X-learner第一階段時(shí)和T-learner相同的,但是第二階段,從reatment的觀測結(jié)果減去對(duì)照組訓(xùn)練的模型估計(jì)量,從實(shí)驗(yàn)組訓(xùn)練的模型減去對(duì)照組的觀測結(jié)果,從而估算出treatment的結(jié)果。\tilde{D_i^1} :=Y_i^1-\hat{\mu_0}(X_i^1),
\tilde{D_i^0} :=\hat{\mu_1}(X_i^0)-Y_i^0。
這里我們用Y_i^0Y_i^1分別表示對(duì)照組和實(shí)驗(yàn)組的觀測結(jié)果,X_i^1X_i^0分別是相應(yīng)的特征向量。Fig1(b)展示了計(jì)算treatment的效果\tilde{D}。根據(jù)公式7、8 可以計(jì)算出 \hat{\tau_1}\hat{\tau_0}。然后再利用以下公式計(jì)算出最終的評(píng)估結(jié)果。
\hat{\tau}(x)=g(x)\hat{\tau_0}(x)+(1-g(x))\hat{\tau_1}(x)

這里計(jì)算\hat{\tau_1}是利用實(shí)驗(yàn)組的觀測數(shù)據(jù)減去對(duì)照組模型預(yù)測的結(jié)果,\hat{\tau_0}是利用實(shí)驗(yàn)組模型預(yù)測結(jié)果減去對(duì)照組的觀測數(shù)據(jù)。要說明的是\hat{\tau_1}(fig1_b中藍(lán)線)計(jì)算的更準(zhǔn)確一些,因?yàn)閷?duì)照組模型是準(zhǔn)確的,但是實(shí)驗(yàn)組模型是過擬合的。所以fig1(b)藍(lán)線更接近正確值(treatment真實(shí)效果為1)。

如果我們選擇g(x)=\hat{e}(x),即使用傾向得分作為g,\tau將和\hat{\tau_1}(x)非常相似,因?yàn)槲覀冊趯?duì)照組中有更多的觀察結(jié)果,即\hat{e}很小。Fig1(c)顯示了T-learner和X-learner的效果。
??在這個(gè)例子中我們選擇S-learner很難評(píng)估,因?yàn)槿绻庞蠷F的基學(xué)習(xí)器進(jìn)行訓(xùn)練時(shí),S-learner第一個(gè)分裂可能把97.5%的實(shí)驗(yàn)組的樣本分裂出去,造成后續(xù)分裂時(shí)缺少實(shí)驗(yàn)組的樣本。

換句話說就是實(shí)驗(yàn)組和對(duì)照組的樣本比例極不均衡時(shí),如果使用S-learner訓(xùn)練時(shí)幾次分裂就會(huì)把所有的實(shí)驗(yàn)組樣本使用完。

仿真結(jié)果(略)

這里說元算法的基學(xué)習(xí)器的選擇會(huì)最對(duì)最終的結(jié)果有很大的不同。
指出S-learner是否treatment當(dāng)做和其他特征一樣的權(quán)重是不是最明智的。
指出T-learner沒有合并實(shí)驗(yàn)組和對(duì)照組,這對(duì)預(yù)測CATE是不利的,因?yàn)橹皇菙M合各自的數(shù)據(jù)集,沒有表現(xiàn)出實(shí)驗(yàn)組和對(duì)照組之間的相應(yīng)功能。
指出當(dāng)實(shí)驗(yàn)組和對(duì)照組的樣本非常不均衡時(shí),X-learner是牛逼的。

收斂速度比較(略)

應(yīng)用(略)

通過2個(gè)數(shù)據(jù)證明X-learner的優(yōu)越性。

結(jié)論

這篇文章綜述了CATE估計(jì)的元算法,包括S-learner和T-learner。然后提出了一個(gè)新的X-learner,它可以將任何監(jiān)督學(xué)習(xí)或者回歸算法組合轉(zhuǎn)換來評(píng)估CATE。X-learner適合于各種場景,例如當(dāng)實(shí)驗(yàn)組數(shù)據(jù)要比對(duì)照組數(shù)據(jù)多出很多時(shí),理論和數(shù)據(jù)均表明X-learner能夠很好的擬合treatment的效果。

附錄:


S-learner

T-learner

X-learner
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容