協(xié)變量(covariate)是變量,千萬別和協(xié)方差(covariance)搞混了!他們的英文名很像,但他們的含義有大區(qū)別!
舉個(gè)例子說明協(xié)方差是什么:
我想研究某款減肥藥對(duì)體重變化的影響,我們都知道減肥藥是自變量,體重是因變量。
簡(jiǎn)而言之,減肥藥影響體重。然而,存在一些可知/不可知的變量也同時(shí)影響著體重。
譬如說年齡,食量,飲水量,運(yùn)動(dòng)量等,我們統(tǒng)稱這些不受實(shí)驗(yàn)設(shè)計(jì)控制/不受干預(yù)變量影響的變量作協(xié)變量。
也就是說,協(xié)變量是會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生影響但不可控的變量。
說到協(xié)變量,也應(yīng)該提一提混雜因素(confounder)。混雜因素一定是協(xié)變量,協(xié)變量不一定是混雜因素。混雜因素是協(xié)變量的升級(jí)版,它不僅影響結(jié)局,還影響/受干預(yù)變量影響。
比如研究吸煙對(duì)患肺癌的影響,吸煙與否是自變量,患肺癌是因變量。
我們又想到,年齡應(yīng)該也會(huì)影響患癌癥的概率。那年齡、就是一個(gè)協(xié)變量。
那它是不是一個(gè)混雜因素呢?可能是的,因?yàn)槟挲g不僅會(huì)影響是否患癌癥,還會(huì)影響是否吸煙,年紀(jì)越大,吸煙的可能就越大。
為什么我說了可能是呢?因?yàn)橐獫M足另一個(gè)條件才能確定年齡是不是混雜因素,那就是看年齡在干預(yù)組和非干預(yù)組的分布是否相同。如果年齡分布是相同的,RCT就很完美地將人群隨機(jī)化了,兩組分布相同,管他有沒有影響呢,就算有影響也是兩組一起影響,就不會(huì)混雜(confound)結(jié)果了。