偏最小二乘回歸及其SAS實(shí)現(xiàn)

偏最小二乘回歸可用于解決多重共線性問(wèn)題,其用途比主成分回歸更為廣泛。最初由經(jīng)濟(jì)計(jì)量學(xué)家Herman Wold于20世紀(jì)70年代提出比較系統(tǒng)的算法體系,被許多統(tǒng)計(jì)學(xué)家稱為“第二代多元統(tǒng)計(jì)分析方法”。

偏最小二乘回歸綜合了線性回歸、主成分分析及典型相關(guān)分析的優(yōu)點(diǎn),其目的是研究多因變量對(duì)多自變量的回歸建模,能夠在自變量存在嚴(yán)重相關(guān)性條件下建模,尤其適用于含量較小的情形。

偏最小二乘回歸的SAS程序主要通過(guò)proc pls過(guò)程實(shí)現(xiàn):

proc pls <option(s)>;
     model 因變量=自變量 </option(s)>;
run;

proc pls命令常用的選項(xiàng)有:

** cv=:**指定交叉確認(rèn)方法以確定適當(dāng)因子數(shù)。常用的有cv=one,cv=split, cv=block, cv=random
cvtest: 對(duì)交叉確認(rèn)方法選擇的不同成分的模型進(jìn)行比較檢驗(yàn)
method=: 指定因子提取方法,常用有pls(偏最小二乘回歸法)、pcr(主成分回歸法)、rrr(降秩法);這些方法在多因變量分析時(shí)由于側(cè)重不同有較大的差別;單因變量分析時(shí)差別不大,可直接選method=pls

model語(yǔ)句常用的選項(xiàng)有:

solution:給出以0為中心的標(biāo)準(zhǔn)化(即均數(shù)為0,標(biāo)準(zhǔn)差為1)回歸系數(shù)和原始變量的回歸系數(shù)

SAS程序例子

pls程序.png

結(jié)果分析

第一部分 交叉確認(rèn)法確定提取的因子數(shù)并給出檢驗(yàn)結(jié)果

交叉確認(rèn)法分析結(jié)果.png

看上面的第三個(gè)表:第1列為提取因子數(shù),第4列為提取相應(yīng)因子數(shù)與PRESS(預(yù)測(cè)殘差平方和)最小因子數(shù)相比的P值。

結(jié)果顯示:

  • 提取1個(gè)因子與提取2個(gè)因子所提供的信息并無(wú)統(tǒng)計(jì)學(xué)差異(P=0.4920);
  • 提取3個(gè)因子與提取2個(gè)因子所提供的信息也無(wú)統(tǒng)計(jì)學(xué)差異(P=0.8630)。

再看第四個(gè)表:第一行結(jié)果為2,第二行結(jié)果為0.3651,提示提取兩個(gè)因子時(shí)PRESS均方最?。?.3651);第三行結(jié)果為1,表明最小因子數(shù)為1,且1個(gè)因子的模型與2個(gè)因子的模型相比無(wú)統(tǒng)計(jì)學(xué)差異。既然差別不大,從簡(jiǎn)化角度來(lái)看,提取1個(gè)因子顯然比提取2個(gè)或3個(gè)因子更為可取。

第二部分 偏最小二乘回歸法提取因子及其貢獻(xiàn)率

偏最小二乘回歸法提取因子及其貢獻(xiàn)率.png

結(jié)果表明:

  • 提取的1個(gè)因子已經(jīng)涵蓋了97.39%的自變量信息以及88.57%的因變量信息。

第三部分 標(biāo)準(zhǔn)化回歸系數(shù)估計(jì)

標(biāo)準(zhǔn)化回歸系數(shù)估計(jì).png

第四部分 原始變量的回歸系數(shù)估計(jì)

原始變量回歸系數(shù)估計(jì).png

得最終原始變量的模型為:
xin = -14.13105929 + 0.26465955 x height + 0.42241598 x weight + 0.56172162 x cir

偏最小二乘回歸應(yīng)用特點(diǎn):

  • 適用于樣本含量相對(duì)較小的情形,甚至可用于樣本含量小于自變量數(shù)的特殊情況。(傳統(tǒng)線性回歸一般要求樣本含量是自變量個(gè)數(shù)的5~10倍)
  • 適宜處理多因變量和多自變量的數(shù)據(jù),尤其是因變量之間和自變量之間均存在較強(qiáng)相關(guān)性的情形。
  • 偏最小二乘回歸可利用VIP(variable important forprojection)指標(biāo)進(jìn)行變量篩選。

偏最小二乘回歸變量篩選

SAS程序

vip程序.png

結(jié)果:

vip plots.png
vip.png

結(jié)果顯示:

  • 三個(gè)變量的VIP非常接近,表明三個(gè)自變量對(duì)因變量的影響大小差不多,很難確認(rèn)刪除哪個(gè)。如果用多重性回歸進(jìn)行逐步回歸分析,結(jié)果只能保留體重一個(gè)變量,顯然過(guò)于片面。(逐步回歸過(guò)程略)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容