偏最小二乘回歸可用于解決多重共線性問(wèn)題,其用途比主成分回歸更為廣泛。最初由經(jīng)濟(jì)計(jì)量學(xué)家Herman Wold于20世紀(jì)70年代提出比較系統(tǒng)的算法體系,被許多統(tǒng)計(jì)學(xué)家稱為“第二代多元統(tǒng)計(jì)分析方法”。
偏最小二乘回歸綜合了線性回歸、主成分分析及典型相關(guān)分析的優(yōu)點(diǎn),其目的是研究多因變量對(duì)多自變量的回歸建模,能夠在自變量存在嚴(yán)重相關(guān)性條件下建模,尤其適用于含量較小的情形。
偏最小二乘回歸的SAS程序主要通過(guò)proc pls過(guò)程實(shí)現(xiàn):
proc pls <option(s)>;
model 因變量=自變量 </option(s)>;
run;
proc pls命令常用的選項(xiàng)有:
** cv=:**指定交叉確認(rèn)方法以確定適當(dāng)因子數(shù)。常用的有cv=one,cv=split, cv=block, cv=random
cvtest: 對(duì)交叉確認(rèn)方法選擇的不同成分的模型進(jìn)行比較檢驗(yàn)
method=: 指定因子提取方法,常用有pls(偏最小二乘回歸法)、pcr(主成分回歸法)、rrr(降秩法);這些方法在多因變量分析時(shí)由于側(cè)重不同有較大的差別;單因變量分析時(shí)差別不大,可直接選method=pls
model語(yǔ)句常用的選項(xiàng)有:
solution:給出以0為中心的標(biāo)準(zhǔn)化(即均數(shù)為0,標(biāo)準(zhǔn)差為1)回歸系數(shù)和原始變量的回歸系數(shù)
SAS程序例子

結(jié)果分析
第一部分 交叉確認(rèn)法確定提取的因子數(shù)并給出檢驗(yàn)結(jié)果

看上面的第三個(gè)表:第1列為提取因子數(shù),第4列為提取相應(yīng)因子數(shù)與PRESS(預(yù)測(cè)殘差平方和)最小因子數(shù)相比的P值。
結(jié)果顯示:
- 提取1個(gè)因子與提取2個(gè)因子所提供的信息并無(wú)統(tǒng)計(jì)學(xué)差異(P=0.4920);
- 提取3個(gè)因子與提取2個(gè)因子所提供的信息也無(wú)統(tǒng)計(jì)學(xué)差異(P=0.8630)。
再看第四個(gè)表:第一行結(jié)果為2,第二行結(jié)果為0.3651,提示提取兩個(gè)因子時(shí)PRESS均方最?。?.3651);第三行結(jié)果為1,表明最小因子數(shù)為1,且1個(gè)因子的模型與2個(gè)因子的模型相比無(wú)統(tǒng)計(jì)學(xué)差異。既然差別不大,從簡(jiǎn)化角度來(lái)看,提取1個(gè)因子顯然比提取2個(gè)或3個(gè)因子更為可取。
第二部分 偏最小二乘回歸法提取因子及其貢獻(xiàn)率

結(jié)果表明:
- 提取的1個(gè)因子已經(jīng)涵蓋了97.39%的自變量信息以及88.57%的因變量信息。
第三部分 標(biāo)準(zhǔn)化回歸系數(shù)估計(jì)

第四部分 原始變量的回歸系數(shù)估計(jì)

得最終原始變量的模型為:
xin = -14.13105929 + 0.26465955 x height + 0.42241598 x weight + 0.56172162 x cir
偏最小二乘回歸應(yīng)用特點(diǎn):
- 適用于樣本含量相對(duì)較小的情形,甚至可用于樣本含量小于自變量數(shù)的特殊情況。(傳統(tǒng)線性回歸一般要求樣本含量是自變量個(gè)數(shù)的5~10倍)
- 適宜處理多因變量和多自變量的數(shù)據(jù),尤其是因變量之間和自變量之間均存在較強(qiáng)相關(guān)性的情形。
- 偏最小二乘回歸可利用VIP(variable important forprojection)指標(biāo)進(jìn)行變量篩選。
偏最小二乘回歸變量篩選
SAS程序

結(jié)果:


結(jié)果顯示:
- 三個(gè)變量的VIP非常接近,表明三個(gè)自變量對(duì)因變量的影響大小差不多,很難確認(rèn)刪除哪個(gè)。如果用多重性回歸進(jìn)行逐步回歸分析,結(jié)果只能保留體重一個(gè)變量,顯然過(guò)于片面。(逐步回歸過(guò)程略)