兩變量間的關(guān)系有兩類:確定性關(guān)系和非確定關(guān)系。
前者指兩變量間的關(guān)系是函數(shù)關(guān)系,可以精確測(cè)量。后者指兩變量在宏觀上存在關(guān)系,但未精確到可以用函數(shù)關(guān)系來(lái)表達(dá)。
相關(guān)分析時(shí)研究觀察指標(biāo)間相關(guān)關(guān)系的統(tǒng)計(jì)方法,按數(shù)據(jù)類型的不同分為:定量資料的相關(guān)、定性資料的相關(guān)、等級(jí)資料的相關(guān)。
這一篇先介紹定量資料的相關(guān)。
1. 樣本相關(guān)系數(shù)的計(jì)算
當(dāng)一個(gè)變量增大 ,另一個(gè)變量也隨之增大或隨之減少,可以說兩變量存在相關(guān)關(guān)系。相關(guān)關(guān)系分為線性的和非線性的,我們常說的相關(guān)是指線性相關(guān)。
相關(guān)系數(shù),是表達(dá)兩變量間線性相關(guān)程度和方向的一個(gè)統(tǒng)計(jì)指標(biāo),也稱Pearson相關(guān)系數(shù)。樣本相關(guān)系數(shù)用符號(hào)r表示,總體相關(guān)系數(shù)用ρ表示。樣本相關(guān)系數(shù)計(jì)算如下:

相關(guān)系數(shù)取值范圍在-1到1之間,小于0為負(fù)相關(guān),大于0為正相關(guān),等于0為零相關(guān)。相關(guān)系數(shù)的絕對(duì)值越大,表示兩變量間的相關(guān)程度越密切。
2. 相關(guān)系數(shù)的假設(shè)檢驗(yàn)
樣本相關(guān)系數(shù)r是總體相關(guān)系數(shù)ρ的估計(jì)值。作為樣本統(tǒng)計(jì)量,樣本相關(guān)系數(shù)會(huì)有抽樣誤差。即使從相關(guān)系數(shù)ρ=0的總體中隨機(jī)抽樣,樣本相關(guān)系數(shù)也往往不等于0,所以對(duì)樣本相關(guān)系數(shù)r進(jìn)行假設(shè)檢驗(yàn)。
相關(guān)系數(shù)的假設(shè)檢驗(yàn)用t檢驗(yàn):

3. Fisher z變換
當(dāng)相關(guān)系數(shù)假設(shè)檢驗(yàn),拒絕H0,接受H1時(shí),可以認(rèn)為樣本來(lái)自于總體的相關(guān)系數(shù)ρ不等0。從這個(gè)總體中進(jìn)行抽樣,樣本相關(guān)系數(shù)的抽樣分布是偏態(tài)的,不方便進(jìn)行比較。
R.A.Fisher 提出的z變換解決了這個(gè)問題,對(duì)相關(guān)系數(shù)r做如下變換:

變換值z(mì)近似服從正態(tài)分布:

基于此,我們可以計(jì)算出相關(guān)系數(shù)的可信區(qū)間,以及兩相關(guān)系數(shù)的比較。
兩相關(guān)系數(shù)的比較就轉(zhuǎn)化成,對(duì)z值的比較,具體的公式如下:

兩相關(guān)系數(shù)的比較,在臨床試驗(yàn)中較為少見,SAS中沒有直接輸出比較結(jié)果的選項(xiàng),需要自己編程實(shí)現(xiàn)對(duì)應(yīng)的算法,獲取p值。
4 SAS編程實(shí)現(xiàn)
計(jì)算相關(guān)系數(shù)使用的是Corr過程步,以下舉例來(lái)源于SAS官方文檔 (Example 2.4 Applications of Fisher's z Transformation)。
演示數(shù)據(jù)為2元正態(tài)分布的模擬數(shù)據(jù)(X, Y),共有3個(gè)組別。第一組,樣本量為150,相關(guān)系數(shù)為0.3;第2組,樣本量為150,相關(guān)系數(shù)為0.25;第3組,樣本量為100,相關(guān)系數(shù)為0.3。
data Sim (drop=i);
do i=1 to 400;
X = rannor(135791);
Batch = 1 + (i>150) + (i>300);
if Batch = 1 then Y = 0.3*X + 0.9*rannor(246791);
if Batch = 2 then Y = 0.25*X + sqrt(.8375)*rannor(246791);
if Batch = 3 then Y = 0.3*X + 0.9*rannor(246791);
output;
end;
run;
4.1 檢驗(yàn)總體相關(guān)系數(shù)是否等于一個(gè)給定值 (rho0)
檢驗(yàn)總體相關(guān)系數(shù)是否等于0,有兩種方法:一種是t檢驗(yàn),一種是Fisher z變換后的正態(tài)性檢驗(yàn)。
1) t檢驗(yàn)
使用Corr過程步的Person選項(xiàng),可以獲取對(duì)應(yīng)比較的p值,日常工作中,需要將輸出到數(shù)據(jù)集。
title 'Analysis for Batch 1';
ods output PearsonCorr = pcorr;
proc corr data=Sim (where=(Batch=1)) pearson;
var X;
with Y;
run;
ods output close;
輸出結(jié)果如下:


這里的選項(xiàng)也可以使用 var X Y;,這個(gè)選項(xiàng)會(huì)輸出XY、YX的雙向結(jié)果:

2) Fisher z 變換
通過Fisher z 變換,轉(zhuǎn)化為正態(tài)分布進(jìn)行處理,檢驗(yàn)相關(guān)系數(shù)是否等于0:
title 'Analysis for Batch 1';
proc corr data=Sim (where=(Batch=1)) fisher(rho0 = 0);
var X Y;
run;
輸出結(jié)果如下:

原數(shù)據(jù)Batch 1是按相關(guān)系數(shù)0.3進(jìn)行模擬的,顯然不等于0。兩種檢驗(yàn)方法得出的p值都<0.05,拒絕了總體相關(guān)系數(shù)ρ=0的假設(shè)。雖然兩種方法的p值有細(xì)微差異(0.0001),但不影響結(jié)果。
第一種方法只能檢驗(yàn)總體相關(guān)系是否等于0,因?yàn)橹挥性讦?0的情況下,樣本相關(guān)系數(shù)的抽樣分布才服從t分布。第2種方法可以適用于總體相關(guān)系數(shù)其他值的檢驗(yàn),同時(shí)也會(huì)輸出相關(guān)系數(shù)的95%的可信區(qū)間。
臨床試驗(yàn)中,一般計(jì)算相關(guān)系數(shù)的要求比較簡(jiǎn)單,通常只要r 和 p值,使用的方法是t檢驗(yàn)。當(dāng)然,這具體要看試驗(yàn)設(shè)計(jì)和統(tǒng)計(jì)的要求。
4.2 檢驗(yàn)兩總體相關(guān)系數(shù)是否相等
如前面介紹,這種情況只能進(jìn)行Fisher z變換后進(jìn)行比較,同時(shí)需要進(jìn)行手動(dòng)編程實(shí)現(xiàn)對(duì)應(yīng)的算法。代碼實(shí)例進(jìn)行比較Batch1 和 Batch3的相關(guān)系數(shù)是否相等。
首先,計(jì)算2組的相關(guān)系數(shù),以及分別進(jìn)行假設(shè)檢驗(yàn):
ods output FisherPearsonCorr=SimCorr;
title 'Testing Equality of Population Correlations';
proc corr data=Sim (where=(Batch=1 or Batch=2)) fisher;
var X Y;
by Batch;
run;
ods output close;
proc print data=SimCorr;
run;
輸出結(jié)果如下:

第二,計(jì)算z統(tǒng)計(jì)量以及雙側(cè)檢驗(yàn)的P值。
data SimTest (drop=Batch);
merge SimCorr (where=(Batch=1) keep=Nobs ZVal Batch
rename=(Nobs=n1 ZVal=z1))
SimCorr (where=(Batch=2) keep=Nobs ZVal Batch
rename=(Nobs=n2 ZVal=z2));
variance = 1/(n1-3) + 1/(n2-3);
z = (z1 - z2) / sqrt( variance );
pval = probnorm(z);
if (pval > 0.5) then pval = 1 - pval;
pval = 2*pval;
run;
proc print data=SimTest noobs;
run;
結(jié)果如下:

p = 0.27954 > 0.05,在α=0.05的水準(zhǔn)下,所以沒有證據(jù)拒絕零假設(shè),不能認(rèn)為兩組的相關(guān)系數(shù)不同。這結(jié)論與起始的數(shù)據(jù)模擬條件是一致的。
代碼中如要注意的是,pval = probnorm(z);,計(jì)算的分布函數(shù)值,即P{x<z},下圖中陰影部分的面積。關(guān)于分布函數(shù)相關(guān)信息問題,可以參考醫(yī)學(xué)統(tǒng)計(jì):隨機(jī)變量的概率分布、概率計(jì)算的SAS實(shí)現(xiàn)。

感謝閱讀, 歡迎關(guān)注!
若有疑問,歡迎評(píng)論交流!