
第四章的主要內(nèi)容是講,在不能采用隨機大樣本對照實驗的情況下,如何使用do算子去除因果關(guān)系的混雜因子。
最早的一次對照實驗:
公元前597年,巴比倫王洗劫了猶大國,帶回了數(shù)以千計的俘虜。亞施毗按照國王的指示尋找“那些沒有缺陷、相貌英俊、技能全面、通達知識、理解科學的孩子”,接受教育,以后為國家服務(wù)。
其中有個叫丹尼爾的男孩拒絕按照安排吃皇家飯,喝皇家酒。出于宗教原因,他和他的朋友一定要吃素食。亞施毗拿對此感到非常為難。
丹尼爾向亞施毗拿提出,吃素不會削弱他們服務(wù)國王的能力。并提議做一次對照實驗:“給我們10天時間,讓我們4人只吃蔬菜,讓另一組孩子吃皇家的肉,喝皇家的酒。10天后,讓兩組進行比較”。
最終,丹尼爾和他的三個同伴勝出,后來在素食飲食下健康成長。國王也為他們的智慧和學識(當然還有他們那健康美麗的外表)所折服,并留下了一段傳奇。
這個關(guān)于丹尼爾的故事就是一個對照實驗,雖然相對于現(xiàn)代的實驗來講,還有很多問題,比如樣本數(shù)不夠、時間不夠等,沒有剔除混雜因子影響。但是它同樣有著現(xiàn)代實驗的光輝:前瞻性對照試驗在今天仍然是可靠科學的一個標志。要知道,我們現(xiàn)在還有多少人,因為聽說朋友采取某種飲食,并減肥成功,因此自己就照著做呢?
利用隨機對照實驗去除混雜因子
混雜因子的定義晦澀難懂,本來我想說,對原因x和結(jié)果y之間的因果關(guān)系造成干擾,影響的因素就是混雜因子??上н@樣說是不準確的。但是可以通過舉例子加強對混雜因子的理解。比如前面丹尼爾的實驗,丹尼爾和他的三個伙伴以前的身體狀況和知識就是對照實驗的混雜因子,甚至可以說他們的基因也可能是混雜因子。還有,著名的斯坦福囚犯實驗中,參加實驗的人都是白人、年輕人。因此,就有人認為實驗結(jié)果不具備代表性,就是因為,這里面,人種和年齡等因素就是斯坦福實驗的混雜因子。
為了消除混雜因子的影響,科學家引入了隨機對照實驗。這本書中并沒有提到大樣本,但是我認為足夠的樣本是消除混雜因子必備的基礎(chǔ)。為什么隨機大樣本實驗?zāi)軌蛳祀s因子的影響?隨機可以將各種混雜因子分布在樣本中,而你可以按照你需要控制的因素對樣本進行分組,樣本足夠多,分布的就足夠均勻,混雜因子的影響就去除的越徹底。通過這樣,就可以獲得干預概率P(Y|do(X)),也就是我們要研究的因果關(guān)系。隨機大樣本對照實驗可以說是現(xiàn)代醫(yī)學實驗的金標準,在另一本書《這么吃才科學》中,就提到了很多不被作者認可的實驗,原因就是實驗樣本太少。比如有些實驗的樣本只有二三十個人而已。在這種情況下,是無法消除混雜因子影響的,那么結(jié)論的有效性就非常值得質(zhì)疑。
大樣本隨機對照實驗是金標準,但是,有些研究是不能采取這鐘方法的,例如在研究肥胖對心臟病的影響時,我們不能隨機安排病人肥胖與否,或者干預可能是不道德的(例如研究吸煙的影響,我們也不能要求隨機選擇的一些人抽上10年的煙)。再或者,對于某些較為復雜、參與起來不方便的試驗,我們可能會在招募受試者時遇到困難,而勉強找到的志愿參與者又無法代表我們的目標總體。這時候,本章提出的“后門標準”(back-door criterion)的方法,它可以明確識別出因果圖中哪些變量是去混因子。
利用因果圖和后門標準去除混雜因子
因為有些地方無法使用對照實驗,那么這場因果革命帶來的方法就能派上用場了。這突破了一直以來的一個結(jié)論:一項觀察性研究(其中受試者自行選擇是否接受處理)永遠不能闡明一個因果結(jié)論。
使用這個方法,首先要熟練使用因果圖,上一章已經(jīng)講過,因果圖由3個基本形式組成:鏈接合、叉結(jié)合、對撞結(jié)合。在你所繪制的因果圖中,x和y之間有些路徑是因果路徑,有些地方是非因果路徑。為了去除X和Y中的混雜,我們只需要阻斷它們之間的每個非因果路徑,而不去阻斷或干擾所有的因果路徑就可以了。換句話說,就是保留因果關(guān)系之間的信息流動,阻斷非因果關(guān)系之間的信息流動。這樣,我們將后門路徑(back-door path)定義為所有X和Y之間以指向X的箭頭為開始的路徑;如果我們阻斷了所有的后門路徑(因為這些路徑允許X和Y之間的偽相關(guān)信息在管道中流通),則我們就完成了對X和Y的去混雜。
為了理解這段話,我費了很大的功夫,只能從因果圖中進行舉例了。

在上面這張圖中,X←A→B和B←C→Y是叉結(jié)合,A→B←C是對撞結(jié)合,因此,x的信息流不會按照這條路徑X←A→B←C→Y流動,因此可以說,這張因果圖中并沒有混雜因子。

如果在B和X之間增加一個路徑,B→X,那么,X←B←C→Y這條路徑就被打通了。我們需要將這條非因果關(guān)系的路徑中斷,杜絕它帶來的不利影響。最簡單的方式是控制C,就阻斷了這條非因果關(guān)系路徑。要注意的是,如果我們通過控制B來關(guān)閉這條路徑,那么我們就打開了M形路徑X←A→B←C→Y。而要關(guān)閉這一路徑,我們還必須控制A或C。這個方法就是第四章講解的后門標準去除因果關(guān)系中的混雜因子。
從這里看,能夠準確的畫出因果圖,是準確做出分析的重要前提。否則,重要的因素沒有在因果圖中出現(xiàn),去除混雜因子就無從談起。