Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning 筆記

論文地址：Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning

摘要

??在實(shí)驗(yàn)和觀察性研究中，異質(zhì)化的treatment的評(píng)估和分析受到了人們越來越多的關(guān)注。我們描述一些元算法，他們可以利用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中的任何監(jiān)督學(xué)習(xí)或者回歸方法來評(píng)估條件處理效應(yīng)（ Conditional Average Treatment Effect，CATE）函數(shù)。元算法建立在基本算法(隨機(jī)森林-RF、貝葉斯加權(quán)回歸樹-BART、神經(jīng)網(wǎng)絡(luò)的等)的基礎(chǔ)上評(píng)估CATE，該算法并沒有直接評(píng)估的基本算法。本文介紹了一種新的元算法- $\color{red}{X-learner}$ ,該算法在treatment組數(shù)據(jù)遠(yuǎn)大于contal數(shù)據(jù)時(shí)也是有效的，并且利用了CATE的函數(shù)結(jié)構(gòu)特性。例如，如果CATE函數(shù)是線性的，并且在treatment和contal中響應(yīng)函數(shù)都是Lipschitz連續(xù)，X-learner可以在正則條件下獲得參數(shù)率定（對(duì)參數(shù)進(jìn)行校準(zhǔn)測定，這里個(gè)人覺的就是在樣本不均衡下也可以到準(zhǔn)確的參數(shù)評(píng)估）。然后我們介紹了使用RF和CART作為基礎(chǔ)學(xué)習(xí)器的X-learner的版本。在廣泛的模擬研究中，雖然沒有一個(gè)元學(xué)習(xí)器效果始終是好的，但是X-learner總體上表現(xiàn)的很好。在政治學(xué)中的兩個(gè)說服性實(shí)驗(yàn)組，展示了X-learner如何用于teatment制度上，并闡明潛在的機(jī)制。

Lipschitz（利普希茨）連續(xù)定義:有函數(shù) $f(x)$ ，如果存在一個(gè)常量 $K$ ，使得對(duì) $f(x)$ f定義域上（可為實(shí)數(shù)也可以為復(fù)數(shù)）的任意兩個(gè)值滿足如下條件：
$|f(x_1)-f(x_2)| \leq |x_1-x_2|*K$
那么稱函數(shù) $f(x)$ 滿足Lipschitz連續(xù)條件，并稱 $K$ 為 $f(x)$ 的Lipschitz常數(shù)。Lipschitz連續(xù)比一致連續(xù)要強(qiáng)。它限制了函數(shù)的局部變動(dòng)幅度不能超過某常量

介紹

??隨著包含有關(guān)人類及其行為的細(xì)粒度的數(shù)據(jù)信息的增長，研究人員、商業(yè)、政客越來越關(guān)注treatment的效果的個(gè)人效果的不同性。他們希望可以比在隨機(jī)試驗(yàn)和觀察研究中通過估計(jì)評(píng)估實(shí)驗(yàn)效果（ATE，Average Treatment Effect）的數(shù)據(jù)更多的信息。取而代之是他們尋找評(píng)估CATE的個(gè)性化treatment方案和更好的理解因果機(jī)制。我們這里介紹了一個(gè)新的評(píng)估器：X-learner，并使用一個(gè)統(tǒng)一的元學(xué)習(xí)框架對(duì)它和其他的CATE評(píng)估器進(jìn)行表證。并通過兩個(gè)隨機(jī)試驗(yàn)數(shù)據(jù)集比較了他們的性能。
??在第一個(gè)隨機(jī)實(shí)驗(yàn)，我們評(píng)估了郵件對(duì)選民投票率的影響，在第二個(gè)實(shí)驗(yàn)組，評(píng)估了上門交談對(duì)性別歧視的影響。實(shí)驗(yàn)組，發(fā)現(xiàn)treatment效果是不一樣的，我們通過CATE來量化這種差異。
??為了評(píng)估CATE，我們使用了統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中的回歸或監(jiān)督學(xué)習(xí)的方法，這些方法已經(jīng)成功的廣泛被其他的應(yīng)用使用。具體的講，我們我們的元算法是基于二值的treatment實(shí)驗(yàn)。元學(xué)習(xí)器把估計(jì)CATE拆分為多個(gè)子回歸問題，然后這些問題可以用任何回歸或者監(jiān)督學(xué)習(xí)方法來解決。
??在大多場景評(píng)估異構(gòu)treatment效果的元算法中需要有兩個(gè)步驟。1）它使用基學(xué)習(xí)器分別評(píng)估treatment和contal結(jié)果的條件期望。 2）計(jì)算他們（treatment和contal）之間的差異。基學(xué)習(xí)器可以使用線性回歸或者基于樹的方法。當(dāng)使用樹學(xué)習(xí)器時(shí)被稱為Two-Tree評(píng)估，我們因此將這種方式稱為T-learner。“T”就是“two”的縮寫。
??另外一種評(píng)估CATE效果是利用所有的特征和treatment信號(hào)進(jìn)行訓(xùn)練模型。讓treatment信號(hào)為空時(shí)表示特殊情況，就是contral情況。預(yù)測CATE時(shí)是修改treatment信號(hào)的值進(jìn)行預(yù)測，兩次結(jié)果的差值作為最終的結(jié)果(就是把treatment當(dāng)做特征使用，訓(xùn)練一個(gè)模型，使用時(shí)先把treatment信號(hào)置為1預(yù)測一遍，在置為0預(yù)測一遍，兩個(gè)預(yù)測做差表示CATE）。這種元算法就是S-learner，“s”就是“single”的縮寫。
??不是所有的捕獲treatment異構(gòu)效果的方法都是元算法。例如，一些研究所人員通過估計(jì)有意義的子群體的評(píng)價(jià)treatment效果來分析效果的異構(gòu)性。例如文獻(xiàn)8中的因果森林。由于因果森林是基于RF的方法，因此在模擬研究中可以與RF的元算法進(jìn)行比較，并在結(jié)果中我們發(fā)現(xiàn)因果森林和基于RF的元算法表現(xiàn)的很好，但是也有其他的元算法效果也可以因果森林效果更好。
??本文的貢獻(xiàn)主要是引入了一種新的元算法：X-learner。它是建立在T-learner的基礎(chǔ)上，并將訓(xùn)練集中的每個(gè)觀測值用在一個(gè)類似“X”形狀的公式上。假設(shè)我們可以直接觀測到Treatment的效果，我們可以通過一些方法來刻畫這個(gè)CATE函數(shù)。但是在實(shí)際中我們的實(shí)驗(yàn)樣本不可能同時(shí)處于Treatment和control的，X-learner就是利用觀測到的結(jié)果來評(píng)估CATE的。
??與其他的CATE評(píng)估方式比，X-learner有兩個(gè)優(yōu)點(diǎn)。第一，它可以證明可適應(yīng)結(jié)構(gòu)性，例如CATE的的稀疏性或平滑性。這特別有用，因?yàn)镃ATE通常為0或者近似為線性。第二，當(dāng)一個(gè)treatment組（通常為control）的數(shù)據(jù)量比另外一個(gè)treatment大很多時(shí)特別有用，發(fā)展這種親口的原因是對(duì)照組的數(shù)據(jù)比較容易獲取。

框架和定義

??我們采用 Neyman–Rubin潛在結(jié)果框架，并假設(shè)一個(gè)超群體或分布 $P$ ，從中給出 $N$ 個(gè)獨(dú)立的隨機(jī)變量作為訓(xùn)練集。即 $(Y_i(0),Y_i(1),X_i,W_i ) \sim \mathcal{P}$ ,這里 $X_i \in \mathbb{R^d}$ 表示的是一個(gè)d維的特征向量， $W_i \in {0,1}$ 表示的是否是treatment, $Y_i(0) \in \mathbb{R}$ 表示的是對(duì)照組的結(jié)果， $Y_i(1) \in \mathbb{R}$ 表的treatment的結(jié)果。在這些符號(hào)表示下，平均treatment(ATE)效果可以表示為： $ATE:=\mathbb{E}[Y(1)-Y(0)]$
定義對(duì)照組的相應(yīng) $\mu_0$ 和實(shí)驗(yàn)組的相應(yīng) $\mu_1$ : $\mu_0(x):=\mathbb{E}[Y(0)|X=x],\mu_1(x):=\mathbb{E}[Y(1)|X=x]$
此外我們定義以下符號(hào)
$\begin{split} X \sim \Lambda, \\ W \sim Bern(e(X)), \\ Y(0)=\mu_0(X)+\varepsilon(0), \\ Y(1)=\mu_1(X)+\varepsilon(1) \\ \end{split} \tag{1}$
這里 $\Lambda$ 是X的分布， $\varepsilon(0)$ 和 $\varepsilon(1)$ 是獨(dú)立于X和W的非零均值隨機(jī)變量， $e(x)= \mathbb{P}(W=1|X=x)$ 表示的是傾向得分(一個(gè)樣本被分配到treatment組的概率)。
??因果推斷的根本問題是，對(duì)于訓(xùn)練集中的每一個(gè)樣本，要么觀察到處于對(duì)照組( $W_i=0$ )下的結(jié)果，要么觀察到處于實(shí)驗(yàn)組 $(W_i=1)$ 下的結(jié)果,不能同時(shí)觀察到。因此我們將觀測數(shù)據(jù)定義為 $\mathcal{D}=(Y_i,X_i,W_i)_{1\leq{i} \leq{N}}$ .這里 $\mathcal{D}$ 是 $\mathcal{P}$ 決定的。為了避免所有的樣本都處于對(duì)照組或者實(shí)驗(yàn)組概率為一個(gè)極小的非零值問題，我們將根據(jù)treatment的樣本數(shù)量為條件來分析不同的評(píng)估器的效果差異。也就是說，對(duì)于一個(gè)固定的 $n$ ， $0<n<N$ ,我們的條件是 $\sum_{i=1}^N{W_i}=n$ 。這樣使得我們根據(jù)實(shí)驗(yàn)組的樣本n、控制組的樣本m=N-n下來描述評(píng)估器的效果。
??對(duì)于一個(gè)具有特征 $x_i$ 的個(gè)體 $i$ ,判定是否對(duì)其treatment，我們需要計(jì)算個(gè)體treatment效果(ITE, Individual Treatment Effect) $D_i$ ,定義為
$D_i :=Y_i(1)-Y_i(0)$
然而，在實(shí)際中我們是觀察不到 $D_i$ 的，并且如果沒有強(qiáng)大的附加假設(shè)就無法識(shí)別 $D_i$ ,我們雖然可以構(gòu)造數(shù)據(jù)生成過程與觀察數(shù)據(jù)的相同分布，但是卻和 $D_i$ 的分布不同。所以，我們這評(píng)估CATE效果用以下定義
$\tau(x) := \mathbb{E}[D|X=x]=\mathbb{E}[Y(1)-Y(0)|X=x]$
個(gè)人認(rèn)為，就是說單獨(dú)的個(gè)體treatment差異是無法評(píng)估到的，但是可以評(píng)估一組相同特征下的子群體treatment差異。
我們注意到CATE的最佳估計(jì)也是在最小均方誤差下的ITE的最佳估計(jì)。為了證明這點(diǎn)，我們假設(shè) $D_i$ 一個(gè)估計(jì)量 $\hat{\tau_i}$ ，然后分解為
$\mathbb{E}[(D_i-\hat{\tau_i} )^2|X_i=x_i]=\mathbb{E}[(D_i-\tau(x_i))^2|X_i=x_i]+\mathbb{E}[(\tau(x_i)-\hat{\tau_i})^2] \tag{2}$ 。由于我們無法影響公式2中的第一項(xiàng)，所以我們優(yōu)化最小CATE的MSE也就是優(yōu)化最小化ITE的MSE。
在本文中，我們最小化期望均方誤差(EMSE)來估計(jì)CATE。
$EMSE(\mathcal{P},\hat{\tau}) = \mathbb{E}[(\tau(\mathcal{X}-\hat{\tau(\mathcal{X}})^2]$ .
這里的 $\mathbb{E}$ 取決于 $\hat{\tau}$ 和 $\mathcal{X} \sim \Lambda$ ， $\mathcal{X}$ 獨(dú)立于 $\hat{\tau}$ 。
??為了幫助我們估計(jì) $\tau$ ,我們假設(shè)這里沒有其他的混淆因素。
條件1 $(\varepsilon(0),\varepsilon(1)) \bot W|X$
在特征相同的情況下，是否被treatment要獨(dú)立于結(jié)果誤差。
條件2 存在傾向得分的最小 $e_{min}$ 最大 $e_{max}$ 邊界值,使得所有的 $x$ 都符合， $0<e_{min}<e(x)<e_{max}<1$

元算法

??在這個(gè)章節(jié)中，我們正式的介紹元算法（元學(xué)習(xí)），它是以特征的方式組合監(jiān)督學(xué)習(xí)或回歸估計(jì)，同時(shí)它允許采用任何形式的基學(xué)習(xí)器。元算法因此具有很高的靈活性，可以在不同的子問題中利用先驗(yàn)知識(shí)來評(píng)估CATE：可以選擇特定類型的數(shù)據(jù)，可以直接利用現(xiàn)有的數(shù)據(jù)分析管道。
??我們首先會(huì)議一下S-learner 和T-learner,然后我們提出X-learner,這是一種可以利用不平衡（例如，實(shí)驗(yàn)組或者對(duì)照的樣本遠(yuǎn)大于另外一個(gè)）數(shù)據(jù)的優(yōu)勢和CATE結(jié)構(gòu)的新元算法。
??T-learner分為兩個(gè)步驟，第一步，用一個(gè)基學(xué)習(xí)器來擬合對(duì)照組的相應(yīng)函數(shù)， $\mu_0(x)=\mathbb{E}[Y(0)|X=x]$
基學(xué)習(xí)器可以在對(duì)照組的樣本 ${(X_i,Y_i)}_{W_i=0}$ 采用任何監(jiān)督學(xué)習(xí)或者回歸估計(jì)，我們用符號(hào) $\hat{\mu_0}$ 表示。第二步，我們估計(jì)treatment的相應(yīng)函數(shù)， $\mu_1(x)=\mathbb{E}[Y(1)|X=x]$ ,
在實(shí)驗(yàn)組的數(shù)據(jù)上進(jìn)行訓(xùn)練，我們用符號(hào) $\hat{\mu_1}$ 來表示。那么T-learner可以通過以下公式得出：
$\hat{\tau_T}(x)=\hat{\mu_1}(x) -\hat{\mu_0}(x) \\ \tag{3}$

?? S-learner,是否treatment是被當(dāng)做特征使用的。因此評(píng)估公式為 $\mu(x,w) := \mathbb{E}[Y^{abs}|X=x,W=w]$ ,這里可以用任何基學(xué)習(xí)器，我們用 $\hat{\mu}$ 表示模型的估計(jì)量，因此CATE估計(jì)量表示為： $\hat{\tau_S}(x) =\hat{\mu}(x,1) -\hat{\mu}(x,0) \tag{4}$ .

X-learner

這里我們提出X-learner并提供一個(gè)例子說明它的動(dòng)機(jī)。X-learner學(xué)習(xí)器可以分為三步

用任意的監(jiān)督學(xué)習(xí)或者回歸算法估計(jì)相應(yīng)函數(shù)，用 $\hat{\mu_0}$ 和 $\hat{\mu_1}$ 表示估計(jì)量。
$\mu_0 = \mathbb{E}[Y(0)|X=x] \tag{5}$ , $\mu_1 = \mathbb{E}[Y(1)|X=x] \tag{6}$
根據(jù)對(duì)照組的模型來計(jì)算實(shí)驗(yàn)組中的個(gè)人treatment效果，根據(jù)實(shí)驗(yàn)組的模型來計(jì)算實(shí)驗(yàn)最中的個(gè)人treatment效果。用公式表示為：
$\tilde{D_i^1} :=Y_i^1-\hat{\mu_0}(X_i^1) \tag{7}$ ,
$\tilde{D_i^0} :=\hat{\mu_1}(X_i^0)-Y_i^0 \tag{8}$
注意到，如果 $\hat{\mu_0}=\mu_0$ 和 $\hat{\mu_1}=\mu_1$ ，則 $\tau(x)=\mathbb{E}[\tilde{D^1}|X=x]=\mathbb{E}[\tilde{D^0}|X=x]$
??使用任意的監(jiān)督學(xué)習(xí)或者回歸算法計(jì)算 $\tau(x)$ 有兩種方式：一種是利用treatment組訓(xùn)練的模型計(jì)算得到的 $\hat{\tau_1}(x)$ ,另一種是利用對(duì)照組訓(xùn)練的模型計(jì)算得到的 $\hat{\tau_0}(x)$ .
通過階段2中計(jì)算得到的兩個(gè)估計(jì)量進(jìn)行加權(quán)計(jì)算CATE估計(jì)量：
$\hat{\tau}(x)=g(x)\hat{\tau_0}(x)+(1-g(x))\hat{\tau_1}(x) \tag{9}$
這里 $g \in [0,1]$ 是一個(gè)權(quán)重函數(shù)。

備注1 $\hat{\tau_0}$ 和 $\hat{\tau_1}$ 都是 $\tau$ 的估計(jì)量，而 $g$ 是把這些估計(jì)量合在一起提高 $\hat{\tau}$ 的準(zhǔn)確度。根據(jù)我們的經(jīng)驗(yàn)，我們發(fā)現(xiàn)傾向得分作為 $g$ 是很好的，所以選擇 $g=\hat{e}$ ，如果在實(shí)驗(yàn)組和對(duì)照組的樣本數(shù)據(jù)比例很大或者很小時(shí)，選擇 $g=1$ 或者 $g=0$ 也是有意義的。對(duì)于某些估計(jì)量來說，它有可能估計(jì) $\hat{\tau_0}$ 和 $\hat{\tau_1}$ 的協(xié)方差矩陣，然后選擇 $g$ 來最小化 $\hat{\tau}$ 。

元學(xué)習(xí)器背后的直覺（動(dòng)機(jī)）

??X-learner可以使用對(duì)照組的信息來為實(shí)驗(yàn)組服務(wù)得到更好的估計(jì)量，反之亦然。我們通過一個(gè)簡單的例子來說明這個(gè)。假設(shè)我們想要研究一種treatment的效果，我們用CATE估計(jì)量來作為x的單變量函數(shù)。然而，我們發(fā)現(xiàn)實(shí)驗(yàn)組的樣本很少，對(duì)照組的樣本很多。這種情況出現(xiàn)在行政管理和在線數(shù)據(jù)中：對(duì)照組的數(shù)據(jù)要比實(shí)驗(yàn)組的數(shù)據(jù)豐富的多。Fig1(a)現(xiàn)實(shí)了實(shí)驗(yàn)組的結(jié)果(圓圈)和對(duì)照組的結(jié)果(叉號(hào))。在這個(gè)例子中CATE是常量且等于1。這里是人工模型數(shù)據(jù)生成的.

用一個(gè)不平衡的樣本案例描述X-learner背后直覺

??目前讓我們只看實(shí)驗(yàn)組(treatment)的結(jié)果，當(dāng)我們估計(jì)時(shí)，我們必須注意不用出現(xiàn)過擬合，因?yàn)槲覀冎挥?0個(gè)樣本。我們可能打算使用線性模型，(虛線)來評(píng)估。對(duì)于對(duì)照組，我們注意到當(dāng)區(qū)間的觀測值似乎是不同的，最終我們用一個(gè)在之間跳躍的分段線性函數(shù)來建模（實(shí)線）。這是一個(gè)相對(duì)復(fù)雜的函數(shù)，因?yàn)橛泻芏鄶?shù)據(jù)我們不擔(dān)心過擬合問題。
??在T-learner模型現(xiàn)在將計(jì)算（見Fig1中C的實(shí)線部分），這是一個(gè)在跳躍的相對(duì)復(fù)雜的函數(shù)，然而真實(shí)的是一個(gè)常量。所以這里是有問題的，因?yàn)槲覀児烙?jì)CATE方程時(shí)是基于只有10個(gè)樣本的實(shí)驗(yàn)組訓(xùn)練的模型。（換句話就是，實(shí)驗(yàn)組的樣本太少，計(jì)算的 $\hat{\mu_1}$ 是不準(zhǔn)確的，從而利用 $\hat{\tau_T}(x)=\hat{\mu_1}(x)-\hat{\mu_0}(x)$ 計(jì)算的 $\hat{\tau}$ 也是不準(zhǔn)確的）。

這里指出T-learner在實(shí)驗(yàn)組和對(duì)照組樣本極不均勻時(shí)的預(yù)測的錯(cuò)誤CATE結(jié)果

??在選擇計(jì)算treatment組的預(yù)測值時(shí)選擇了一個(gè)比較好的估計(jì)量，正確的避免了過擬合，最終我們選擇了一個(gè)相對(duì)復(fù)雜的CATE評(píng)估方式。我們可以選擇一個(gè)在0到0.5之間跳躍的分段線性函數(shù)，但是當(dāng)只考慮treatment組時(shí)這顯然是不合理的。但是，如果我們還要考慮對(duì)照組的，則這種公式將是自然選擇。換句話說，我們應(yīng)該改變 $\mu_1$ 和 $\mu_0$ ,希望以這種方式估算他們的差是對(duì) $\tau$ 的良好的估計(jì)。

這里是說我們計(jì)算treatment效果時(shí)用到了對(duì)照組的模型，如果只考慮treatment組這是不合理的。但是我們的目標(biāo)不是找treatment和control，而是找treatment和control的差，通過這種方式可以更好的擬合 $\tau$ 。

X-learner使得我們可以做到這一點(diǎn)。它使我們能夠利用CATE結(jié)構(gòu)信息來高效的利用結(jié)構(gòu)的不平衡設(shè)計(jì)。X-learner第一階段時(shí)和T-learner相同的，但是第二階段，從reatment的觀測結(jié)果減去對(duì)照組訓(xùn)練的模型估計(jì)量，從實(shí)驗(yàn)組訓(xùn)練的模型減去對(duì)照組的觀測結(jié)果，從而估算出treatment的結(jié)果。 $\tilde{D_i^1} :=Y_i^1-\hat{\mu_0}(X_i^1)$ ,
$\tilde{D_i^0} :=\hat{\mu_1}(X_i^0)-Y_i^0$ 。
這里我們用 $Y_i^0$ 和 $Y_i^1$ 分別表示對(duì)照組和實(shí)驗(yàn)組的觀測結(jié)果， $X_i^1$ 和 $X_i^0$ 分別是相應(yīng)的特征向量。Fig1(b)展示了計(jì)算treatment的效果 $\tilde{D}$ 。根據(jù)公式7、8 可以計(jì)算出 $\hat{\tau_1}$ 和 $\hat{\tau_0}$ 。然后再利用以下公式計(jì)算出最終的評(píng)估結(jié)果。
$\hat{\tau}(x)=g(x)\hat{\tau_0}(x)+(1-g(x))\hat{\tau_1}(x)$

這里計(jì)算 $\hat{\tau_1}$ 是利用實(shí)驗(yàn)組的觀測數(shù)據(jù)減去對(duì)照組模型預(yù)測的結(jié)果， $\hat{\tau_0}$ 是利用實(shí)驗(yàn)組模型預(yù)測結(jié)果減去對(duì)照組的觀測數(shù)據(jù)。要說明的是 $\hat{\tau_1}$ (fig1_b中藍(lán)線)計(jì)算的更準(zhǔn)確一些，因?yàn)閷?duì)照組模型是準(zhǔn)確的，但是實(shí)驗(yàn)組模型是過擬合的。所以fig1(b)藍(lán)線更接近正確值(treatment真實(shí)效果為1)。

如果我們選擇 $g(x)=\hat{e}(x)$ ,即使用傾向得分作為 $g$ , $\tau$ 將和 $\hat{\tau_1}(x)$ 非常相似，因?yàn)槲覀冊趯?duì)照組中有更多的觀察結(jié)果，即 $\hat{e}$ 很小。Fig1(c)顯示了T-learner和X-learner的效果。
??在這個(gè)例子中我們選擇S-learner很難評(píng)估，因?yàn)槿绻庞蠷F的基學(xué)習(xí)器進(jìn)行訓(xùn)練時(shí)，S-learner第一個(gè)分裂可能把97.5%的實(shí)驗(yàn)組的樣本分裂出去，造成后續(xù)分裂時(shí)缺少實(shí)驗(yàn)組的樣本。

換句話說就是實(shí)驗(yàn)組和對(duì)照組的樣本比例極不均衡時(shí)，如果使用S-learner訓(xùn)練時(shí)幾次分裂就會(huì)把所有的實(shí)驗(yàn)組樣本使用完。

仿真結(jié)果（略）

這里說元算法的基學(xué)習(xí)器的選擇會(huì)最對(duì)最終的結(jié)果有很大的不同。
指出S-learner是否treatment當(dāng)做和其他特征一樣的權(quán)重是不是最明智的。
指出T-learner沒有合并實(shí)驗(yàn)組和對(duì)照組，這對(duì)預(yù)測CATE是不利的，因?yàn)橹皇菙M合各自的數(shù)據(jù)集，沒有表現(xiàn)出實(shí)驗(yàn)組和對(duì)照組之間的相應(yīng)功能。
指出當(dāng)實(shí)驗(yàn)組和對(duì)照組的樣本非常不均衡時(shí)，X-learner是牛逼的。

收斂速度比較（略）

應(yīng)用(略)

通過2個(gè)數(shù)據(jù)證明X-learner的優(yōu)越性。

結(jié)論

這篇文章綜述了CATE估計(jì)的元算法，包括S-learner和T-learner。然后提出了一個(gè)新的X-learner，它可以將任何監(jiān)督學(xué)習(xí)或者回歸算法組合轉(zhuǎn)換來評(píng)估CATE。X-learner適合于各種場景，例如當(dāng)實(shí)驗(yàn)組數(shù)據(jù)要比對(duì)照組數(shù)據(jù)多出很多時(shí)，理論和數(shù)據(jù)均表明X-learner能夠很好的擬合treatment的效果。

附錄：

S-learner

T-learner

X-learner

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

X-learner:Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning

X-learner:Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning

Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning 筆記

摘要

介紹

框架和定義

元算法

X-learner

元學(xué)習(xí)器背后的直覺（動(dòng)機(jī)）

仿真結(jié)果（略）

收斂速度比較（略）

應(yīng)用(略)

結(jié)論

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

X-learner:Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning

Meta-learners for Estimating HeterogeneousTreatment Effects using Machine Learning 筆記

摘要

介紹

框架和定義

元算法

X-learner

元學(xué)習(xí)器背后的直覺（動(dòng)機(jī)）

仿真結(jié)果（略）

收斂速度比較（略）

應(yīng)用(略)

結(jié)論

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av