On Causal and Anti-causal Learning
本博文對(duì)論文On Causal and Anti-causal Learning的摘要和模型部分做了翻譯和小修改,本論文主要描述因果學(xué)習(xí)中常見的幾類基于函數(shù)估計(jì)的模型,同時(shí)說(shuō)明了因果與相關(guān)性、因果學(xué)習(xí)與機(jī)器學(xué)習(xí)之間的關(guān)系,論文重點(diǎn)在討論和比較不同模型,內(nèi)容較為籠統(tǒng),不做深入探討,但對(duì)不同模型之間的本質(zhì)關(guān)系的討論值得一看。
論文地址:https://arxiv.org/abs/1206.6471
0. 摘要
English
We consider the problem of function estimation in the case where an underlying causal model can be inferred. This has implications for popular scenarios such as covariate shift, concept drift, transfer learning and semi-supervised learning. We argue that causal knowledge may facilitate some approaches for a given problem, and rule out others. In particular, we formulate a hypothesis for when semi-supervised learning can help, and corroborate it with empirical results.
中文
我們思考在一個(gè)潛在因果模型可以被推斷的情況下,進(jìn)行函數(shù)估計(jì)的問(wèn)題。這對(duì)諸如協(xié)變量移位、概念漂移、遷移學(xué)習(xí)、半監(jiān)督學(xué)習(xí)等常見場(chǎng)景具有啟發(fā)意義。我們認(rèn)為,因果知識(shí)可以促進(jìn)對(duì)給定問(wèn)題方法的應(yīng)用,并派出其他方法。特別地,我們提出半監(jiān)督學(xué)習(xí)何時(shí)能夠幫助學(xué)習(xí)的假設(shè),并以真實(shí)結(jié)果證實(shí)它。
1. 介紹
因果與相關(guān)性的關(guān)系
- 大部分機(jī)器學(xué)習(xí)算法采用統(tǒng)計(jì)相關(guān)性來(lái)學(xué)習(xí)數(shù)據(jù)信息,并利用確定值進(jìn)行預(yù)測(cè)。但這樣的學(xué)習(xí)需要大量數(shù)據(jù),且沒有顧及到底層模型數(shù)據(jù)生成過(guò)程的細(xì)節(jié),容易受到未觀測(cè)的混淆因子的影響。
- 因果模型可以彌補(bǔ)機(jī)器學(xué)習(xí)的一些問(wèn)題,其目標(biāo)是通過(guò)因果探索底層數(shù)據(jù)的生成機(jī)制。聯(lián)合分布的不對(duì)稱性對(duì)統(tǒng)計(jì)機(jī)器學(xué)習(xí)有影響,這篇論文的目的是提出一些觀點(diǎn)和建立彼此的聯(lián)系。
- 論文不包含新的實(shí)驗(yàn)數(shù)據(jù),但對(duì)其他三項(xiàng)研究報(bào)告的表現(xiàn)進(jìn)行了元分析,聚焦于半監(jiān)督學(xué)習(xí)的因果結(jié)構(gòu)的含義。
- 因果和相關(guān)性是不通過(guò)的
- 因果模型將因果語(yǔ)義與具有經(jīng)驗(yàn)可測(cè)結(jié)果的事物聯(lián)系起來(lái)。給定來(lái)自某一聯(lián)合分布的觀測(cè)數(shù)據(jù),因果模型允許我們測(cè)試條件相關(guān)性并推斷那個(gè)因果模型是和觀測(cè)分布一致的
因果模型
- 因果圖模型
- 函數(shù)因果模型
- 因果模型給我們更強(qiáng)的解釋性
- 在預(yù)測(cè)問(wèn)題上,我們不僅可以由原因預(yù)測(cè)結(jié)果,也可以由結(jié)果預(yù)測(cè)原因
因果模型的一些假設(shè)
假設(shè)由以下因果圖

因果充分性假設(shè)
當(dāng)變量集 中的任意兩個(gè)變量的直接原因變量都存在
中 時(shí),變 量 集
就被認(rèn)為是因果充分的
函數(shù) 和噪聲
共同確定了因果機(jī)制
,即
。我們認(rèn)為
是原因
到結(jié)果
的轉(zhuǎn)換機(jī)制
因果機(jī)制和輸入的獨(dú)立性
因果機(jī)制 與 輸入分布
之間是獨(dú)立的,改變其中一個(gè),不會(huì)影響的另一個(gè)
函數(shù)因果模型的完備性
事實(shí)證明,二元函數(shù)因果模型是如此豐富,以至于因果方向無(wú)法推斷。
如,對(duì)于噪聲 噪聲取值不同,可以影響
的值,即
。
函數(shù)可以實(shí)現(xiàn)任意不同的機(jī)制,因此很難從如此復(fù)雜的模型中采集的經(jīng)驗(yàn)數(shù)據(jù)中識(shí)別
。令人驚訝的是,只有條件獨(dú)立才允許我們進(jìn)行具有實(shí)際意義的因果推理,如 PC 算法、 FCI 算法。對(duì)于條件獨(dú)立性無(wú)法識(shí)別因果方向的邊,額外的假設(shè)只適用于特定場(chǎng)景。
加性噪聲模型
加性噪聲模型(Additive noise models,ANM):
除了某些例外情況,如φ是線性的,NE是高斯的情況,給定的兩個(gè)實(shí)值隨機(jī)變量X和Y的聯(lián)合分布可以用 ANM 擬合
非線性 ANM
其中, 是可逆函數(shù)
在 ANM 模型中,假定 ,利用
對(duì)
進(jìn)行回歸,如果因果關(guān)系正確,則
與回歸結(jié)果的噪聲應(yīng)該相互獨(dú)立,否則因果關(guān)系不成立。
在本論文中, ANM 有兩個(gè)重要作用:
- 下面的方法將假定我們知道什么是原因,什么是結(jié)果
- 我們將推廣ANM來(lái)處理有幾個(gè) (1)形式的模型共享相同的
的情況
2. 由原因預(yù)測(cè)結(jié)果
假設(shè)有因果關(guān)系 ,我們需要估計(jì)函數(shù)
或者條件分布

我們關(guān)注的一個(gè)問(wèn)題是:在潛在模型中的噪聲值改變時(shí),模型估計(jì)的魯棒性如何?
2.1. 關(guān)于輸入的附加信息
2.1.1. 關(guān)于輸入改變時(shí)的魯棒性(原因改變)
給定:來(lái)自分布 的訓(xùn)練數(shù)據(jù),采樣自
的輸入數(shù)據(jù)(
)
目標(biāo):估計(jì)
解決方案:由于數(shù)據(jù)生成機(jī)制和輸入的獨(dú)立性,可知在 上的改變不會(huì)過(guò)大地引發(fā)
的改變,所以我們有
。對(duì)于等式
,不應(yīng)該錯(cuò)誤地認(rèn)為,在利用
來(lái)預(yù)測(cè)
時(shí)模型不需要適應(yīng)新分布
,這是因?yàn)?,有限?shù)據(jù)可能傾向于簡(jiǎn)單的函數(shù),這些函數(shù)在
具有高概率的區(qū)域內(nèi)很好地?cái)M合數(shù)據(jù),而在
具有高概率的區(qū)域內(nèi)則不適合。
2.1.2. 半監(jiān)督學(xué)習(xí)(SEMI-SUPERVISED LEARNING,SSL)
給定:來(lái)自分布 的訓(xùn)練數(shù)據(jù),采樣自
的輸入數(shù)據(jù)
目標(biāo):估計(jì)
注意:由于數(shù)據(jù)生成機(jī)制和輸入的獨(dú)立性, 不包含關(guān)于
的信息,通過(guò)添加測(cè)試輸入
可以更準(zhǔn)確地估計(jì)
,但不會(huì)影響
的估計(jì)
2.2. 關(guān)于輸出的附加信息
2.2.1. 關(guān)于輸出改變時(shí)的魯棒性(結(jié)果改變)
給定:來(lái)自分布 的訓(xùn)練數(shù)據(jù),采樣自
的輸出數(shù)據(jù)(
)
目標(biāo):估計(jì)
解決方案:首先我們需要確定 還是
發(fā)生變化了(一些方法參考 Localizing distribution change (局部分布變化)(第4節(jié)):
- 如果
發(fā)送改變了的話,則利用 2.1.1 的方法
- 如果
發(fā)現(xiàn)改變了的話,我們可以通過(guò) Estimating causal conditionals (第4節(jié))估計(jì)
。在這里,加性噪聲時(shí)一個(gè)完備的假設(shè)
2.2.2. 附加輸出
給定:來(lái)自分布 的訓(xùn)練數(shù)據(jù),采樣自
的輸出數(shù)據(jù)
目標(biāo):估計(jì)
假設(shè):
-
有一個(gè)由
到
的加性噪聲模型
-
可以唯一的分解未兩個(gè)分布的卷積,即
- 例如,當(dāng)噪聲為高斯且
不可分解時(shí),就滿足了這一點(diǎn)(它不能寫成兩個(gè)分布的非平凡卷積)
解決方案:
- 附加輸出時(shí)有幫助的,因?yàn)楦嬖V我們
或
。學(xué)習(xí)自
對(duì)的加性噪聲模型可能會(huì)告訴我們哪個(gè)選項(xiàng)是正確的。
- 已知
,學(xué)習(xí)
可以簡(jiǎn)化為
中學(xué)習(xí)
,這是一個(gè)比學(xué)習(xí)
更弱的問(wèn)題
2.3. 關(guān)于輸入和輸出的附加信息
2.3.1. 遷移學(xué)習(xí)(TRANSFER LEARNING,只有噪聲改變)
給定:來(lái)自分布 的訓(xùn)練數(shù)據(jù),采樣自
的附加數(shù)據(jù),
目標(biāo):估計(jì)
假設(shè):加性噪聲,即函數(shù) 是不變的而噪聲變化
解決方案:允許 Conditional ANM 來(lái)輸出一個(gè)唯一的函數(shù),只要求兩數(shù)據(jù)集的殘差是獨(dú)立的
這個(gè)場(chǎng)景還有一個(gè) SSL 變體:給定一個(gè)訓(xùn)練集加上來(lái)自兩個(gè)原始邊緣的兩個(gè)未配對(duì)集,額外的集合有助于更好地估計(jì) ,因?yàn)槲覀冊(cè)?.2.2節(jié)中已經(jīng)討論過(guò),從
中抽樣的額外的
值數(shù)據(jù)有所幫助
2.3.2. 概念飄逸(CONCEPT DRIFT,只有函數(shù)改變)
給定:來(lái)自分布 的訓(xùn)練數(shù)據(jù),采樣自
的附加數(shù)據(jù),
目標(biāo):估計(jì)
假設(shè): ANM 中 不變,但函數(shù)
改變
解決方案:對(duì)采樣自 的數(shù)據(jù)點(diǎn)采用 ANM ,得到函數(shù)
,然后有
,其中下標(biāo)
指代該分布所指的變量。
3. 由結(jié)果預(yù)測(cè)原因
思考這樣一類問(wèn)題,系統(tǒng)將因果關(guān)系中的結(jié)果變量作為輸入,并嘗試?yán)幂斎腩A(yù)測(cè)原因變量的值,這類問(wèn)題可以稱為反因果預(yù)測(cè)。如下圖,反因果預(yù)測(cè)的目的是估計(jì) 。這類問(wèn)題看似很不合常理,但實(shí)際上在機(jī)器學(xué)習(xí)中很常見,如,手寫數(shù)據(jù)集的標(biāo)簽預(yù)測(cè)中,需要預(yù)測(cè)的標(biāo)簽實(shí)際上是數(shù)字圖像生成的原因。
與由原因預(yù)測(cè)結(jié)果不同,由原因 預(yù)測(cè)結(jié)果
時(shí),
,即
生成
的因果機(jī)制,與
的分布
是相互獨(dú)立的,利用因果機(jī)制直接計(jì)算較方便;但在反因果預(yù)測(cè)中,由原因
預(yù)測(cè)結(jié)果
時(shí),
對(duì)
的變化很敏感,使得直接預(yù)測(cè)難以實(shí)現(xiàn)。通常,為了計(jì)算方便,在估計(jì)
時(shí),比較好的辦法是,先構(gòu)建
,然后通過(guò)貝葉斯法則
估計(jì)

3.1. 關(guān)于輸入的附加信息
3.1.1. 關(guān)于輸入改變時(shí)的魯棒性(結(jié)果改變)
給定:來(lái)自分布 的訓(xùn)練數(shù)據(jù),采樣自
的輸入數(shù)據(jù)(
)
目標(biāo):估計(jì)
假設(shè):具有可逆函數(shù) 和不可分解的
的加性高斯噪聲。因果條件的
在任何情況都是成立的
解決方案:采用 Localizing distribution change (局部分布變化,第四節(jié))來(lái)判斷 還是
發(fā)送變化了:
- 如果
發(fā)生了變化,則我們假設(shè)
是一個(gè)單射條件,通過(guò) Inverting conditionals (第四節(jié))來(lái)估計(jì)
。進(jìn)而我們將得到
,然后計(jì)算
- 如果
發(fā)生了變化,則通過(guò) Estimating causal conditionals 估計(jì)
(第四節(jié))
3.1.2 半監(jiān)督學(xué)習(xí)(SEMI-SUPERVISED LEARNING,SSL)
給定:來(lái)自分布 的訓(xùn)練數(shù)據(jù),采樣自
的輸入數(shù)據(jù)
目標(biāo):估計(jì)
注意: 和
不是相互獨(dú)立的,二者均包含彼此的信息(這點(diǎn)與因果預(yù)測(cè)不同)。附加的輸入可能允許對(duì)
更加準(zhǔn)確的估計(jì)
常見的 SSL 的假設(shè),可以被認(rèn)為將 的性質(zhì)與
的性質(zhì)聯(lián)系起來(lái):
-
cluster assumption:相同聚類的
有相同的
-
low density separation assumption:分類器的決策邊界(即
與
的交點(diǎn))應(yīng)該位于
較小的區(qū)域
-
semi-supervised smooth?ness assumption:估計(jì)函數(shù)(可以認(rèn)為是
的期望)在
較大的區(qū)域應(yīng)該平滑的
3.2. 關(guān)于輸出的附加信息
3.2.1. 關(guān)于輸出改變的魯棒性(原因改變)
給定:來(lái)自分布 的訓(xùn)練數(shù)據(jù),采樣自
的輸出數(shù)據(jù)(
)。這種情況也被稱為先驗(yàn)概率移位。
目標(biāo):估計(jì)
解決方案:數(shù)據(jù)生成機(jī)制的獨(dú)立性表明 ,因此有
,然后計(jì)算
3.3. 關(guān)于輸入輸出的骨架附加
3.3.1. 遷移學(xué)習(xí)(TRANSFER LEARNING,關(guān)于輸入和輸出噪聲改變的魯棒性)
給定:來(lái)自分布 的訓(xùn)練數(shù)據(jù),采樣自
的附加數(shù)據(jù),
目標(biāo):估計(jì)
假設(shè):加性噪聲,即函數(shù) 是不變的而噪聲變化
解決方案:與 2.3.1(正向因果預(yù)測(cè)的遷移學(xué)習(xí)) 類似,但最后需要后向地利用模型
3.3.2. 概念飄逸(CONCEPT DRIFT,只有函數(shù)改變)
給定:來(lái)自分布 的訓(xùn)練數(shù)據(jù),采樣自
的附加數(shù)據(jù),
目標(biāo):估計(jì)
假設(shè): ANM 中 不變,但函數(shù)
改變
解決方案:我們先學(xué)習(xí) 分布地函數(shù)
,然后使用由分布
采樣的
二元組估計(jì)的
和
,進(jìn)而結(jié)合函數(shù)
與噪聲
和
來(lái)估計(jì)
的分布,進(jìn)而估計(jì)
4. 模塊
Inverting conditionals(反向條件)
思考一個(gè)由 轉(zhuǎn)換到
的機(jī)制
,在一些情況下,我們沒有損失關(guān)于這個(gè)機(jī)制的任何信息
injective conditionals(單射條件)如果不存在任何一個(gè) 使得
,則條件分布
是單射的
Localizing distribution change(局部分布變化)
解決問(wèn)題:給定由分布 采樣的數(shù)據(jù)和采樣自
的附加數(shù)據(jù)(
),確定
還是
發(fā)生了改變
假設(shè):轉(zhuǎn)換關(guān)系服從 ,其中, 分布
和
的函數(shù)
相同,但噪聲
的分布不同,或者是
的分布發(fā)生改變,結(jié)果的分布可以寫作:
其中,滿足條件之一 或
解決方案:我們可以確定那種情況是真的:
- 如果
的傅里葉變換包含零,那么其中一些對(duì)應(yīng)于
頻譜的零,其他對(duì)應(yīng)于
頻譜的零。 然后我們可以檢查
中還會(huì)出現(xiàn)哪些零。
- 假設(shè)
和
不可分解,
和
為零平均高斯分布,那么分布
過(guò)對(duì)
進(jìn)行最大可能寬度的反卷積(仍然產(chǎn)生密度)來(lái)唯一確定
。
Estimating causal conditionals
解決問(wèn)題:給定 ,在假設(shè)
不變的情況下估計(jì)
假設(shè):假設(shè) 和
是由模型
生成,其中
和
相同,而
發(fā)生改變,即
則可以通過(guò)反卷積 獲得
,然后我們可以估計(jì)新條件
Conditional ANM
(用于遷移學(xué)習(xí))假設(shè)兩份數(shù)據(jù)由 和
生成
改進(jìn)算法自(Hoyer, P. O., Janzing, D., Mooij, J. M., Peters, J., and Scholkopf, B. Nonlinear causal discovery with additive ¨ noise models. In NIPS, 2009.),要求分離獨(dú)立性 和
可以認(rèn)為是一種廣義的 ANM 模型,要求 且