最簡單的回歸模型-線性回歸及其變體_chapter6

一、在建立線性回歸模型之前需要考慮的:

  • 1、數(shù)據(jù)預(yù)處理:線性回歸是最簡單的回歸模型,模型具有很好的可解釋性,因而廣泛應(yīng)用于醫(yī)學統(tǒng)計建模領(lǐng)域。但由于其應(yīng)用條件的限制,使得應(yīng)用此方法建模時,在數(shù)據(jù)預(yù)處理階段需要做一些針對性的考量。

    • 1.1 預(yù)測變量(特征)的共線性問題
    • 共線性問題的診斷:相關(guān)性熱圖、PCA(有多少個占據(jù)主要方差的主成分,即意味著有多少組共線性的變量)、方差膨脹因子(VIF)

    • 共線性問題的處理:《應(yīng)用預(yù)測建?!稰33提供的方法直接進行變量刪除;降維(如PCA,在這之前還要進行偏度變換和中心化及標準化);含降維的回歸算法:elastic net族算法:含LASSO/ridge;能夠應(yīng)對變量共線性的模型:偏最小二乘(PLS)、Random Forest等

    • 1.2 離群值的影響:一個離群值可能極大程度改變直線的走向
    • 解決方法包括:1. 剔除離群值 2.采用SSE之外的損失函數(shù),如殘差絕對值

  • 2、模型性能問題:畢竟是一個線性模型,只能做線性擬合,其參數(shù)矩陣的形變能力是有限的。書中說到“顯然,如果數(shù)據(jù)具有曲線或非線性的結(jié)構(gòu),回歸模型將無法刻畫這些特性”

    • 2.1 診斷:判斷響應(yīng)變量與預(yù)測變量間關(guān)系的可視化方法是圖5-3所示的“基本診斷圖”:如果預(yù)測值與殘差的關(guān)系是曲線,則可能無法采用線性模型。
    • 2.2 治療:如果響應(yīng)變量與預(yù)測變量間的非線性關(guān)系容易識別,可以通過往線性模型中添加二次項、三次項或者多次項來解決,則可以繼續(xù)應(yīng)用線性模型;否則應(yīng)采用更為復(fù)雜的、非線性的算法
  • 3、數(shù)據(jù)分割與重抽樣造成的問題

  • 如果有100個樣本,75個特征(此時樣本數(shù)大于特征數(shù),全部用于建模是ok的);但如果進行2:1交叉驗證,訓練集67*75;測試集 33:75,就會出現(xiàn)特征數(shù)大于樣本數(shù)的問題,此時應(yīng)在訓練和測試時考慮特征降維

二、線性回歸模型及其變體

  • 1. 線性回歸模型:無需調(diào)參,只需要在建模前考慮好上述問題即可

  • 2. 偏最小二乘回歸(Partial least squares regression,PLS regression,簡稱PLS):是在應(yīng)用PCA降維方法的同時使得降維得到的主成分還要與響應(yīng)變量的相關(guān)系數(shù)達到最大。

    • 換言之,PLS不等同于PCA之后再進行線性回歸;后者兩步驟是割裂的,PCA的時候,僅考慮使得樣本方差最大化的主成分,至于所得主成分是否與響應(yīng)變量具有足夠的聯(lián)系,則沒有納入考量;PCA之后再進行線性回歸,有可能所得到的主成分與響應(yīng)變量之間沒有足夠聯(lián)系,因而導(dǎo)致建模失??;PLS則是PCA與線性回歸一體化;同時考慮樣本方差最大化和所得主成分與響應(yīng)變量的相關(guān)性,在二者之間取得平衡。
    • PLS有一個調(diào)優(yōu)參數(shù),即需要保留的成分數(shù),通過數(shù)據(jù)分割重抽樣來進行調(diào)參
    • PLS 能夠計算變量的重要性系數(shù)(VIP):VIP值越大,該變量對于響應(yīng)變量的重要性就越大;通常以1為cutoff,大于1認為該變量是有用的
  • 3. PLS算法的演變:演變的目的,是要解決PLS算法在面對樣本量(n)和特征數(shù)(p)增大的場景下,其運算效率降低、對運算內(nèi)存要求增大。因此為了簡化運算,提升效率而提出了PLS的如下變體:

n>>p

- 3.1 將PLS的步驟分解為三個步驟:一個維度為P * P的“核”矩陣,預(yù)測變量的協(xié)方差矩陣(P * P ),以及預(yù)測變量與響應(yīng)變量的協(xié)方差矩陣(P*1);這種類似于矩陣分解的算法提升了運算效率,包括de Jong 和 Ter Braak1994;Dayal和MacGregor 1997所提出的算法

- 3.2 將目標轉(zhuǎn)化為“在預(yù)測變量空間中尋找潛在的正交變量,使其最大化與響應(yīng)變量的協(xié)方差”;這一視角的轉(zhuǎn)變使得目標轉(zhuǎn)化為了縮減預(yù)測變量與響應(yīng)變量之間的協(xié)方差矩陣(P*1),即SIMPLS

p>n: Rannar 1994

當然,PLS算法無論如何改進,其仍然是對原始預(yù)測變量空間進行線性變換得到其子空間,進而與響應(yīng)變量進行關(guān)聯(lián);如果預(yù)測變量空間與響應(yīng)變量之間原本就具有的是“非線性相關(guān)/關(guān)聯(lián)”,那這是PLS或者所有線性回歸家族算法無法逾越的障礙。只能借助于非線性算法來解決問題。

  • 4. 懲罰線性回歸:加入懲罰項的目的是限制單個特征的系數(shù)過大:加入懲罰項后的作用是當系數(shù)值只有在成比例地減小SSE的情況下,才可能取得取得很大的值,因而通過這種辦法限制了特征系數(shù)過大,也可以理解為對特征系數(shù)的收縮

最小二乘法回歸與各帶懲罰項線性回歸的公式比較
  • 4.1 懲罰參數(shù)λ變化對RMSE的影響
  • 懲罰參數(shù)λ從0開始增加的過程中,特征系數(shù)逐漸減小,此過程中,模型方差逐步減小,此時偏差受影響較小,因而RMSE逐步減少;到達臨界值后,方差已經(jīng)被控制得很好,而特征系數(shù)過分收縮帶來模型偏差過大(即欠擬合),故RMSE增大。
    嶺回歸中λ參數(shù)與RMSE的關(guān)系
  • 4.2 LASSO、Ridge、ElasticNetwork的比較
    • LASSO能夠使得某些特征系數(shù)為零,即內(nèi)嵌了“特征選擇”功能,Ridge不具備特征選擇的功能
    • 彈性網(wǎng)絡(luò)包含了LASSO和Ridge,因而同步具有Ridge的特征和LASSO篩選特征的功能;分別將λ1和λ2設(shè)為0即可將其轉(zhuǎn)換為LASSO和Ridge中的任一;因而有些R包也是將LASSO和Ridge蘊含在了彈性網(wǎng)絡(luò)算法包中
    • 要注意的是,書中提到的彈性網(wǎng)絡(luò)參數(shù)是\color{blue}{λ1、λ2};但實際的R包中彈性網(wǎng)絡(luò)的參數(shù)則是\color{red}{α、λ}
      R包中彈性網(wǎng)絡(luò)算法的損失函數(shù)及參數(shù))
    • Lasso回歸(α = 1: );嶺回歸(α = 0);彈性網(wǎng)絡(luò)回歸(α ~(0,1)
  • 4.3 LASSO結(jié)果判讀:兩幅圖雖然方向相反,但橫坐標含義本質(zhì)是相同的:λ越大,即懲罰參數(shù)越大,所剩的特征越少,當前解的個數(shù)相對于完全最小二乘解的比例(fraction of full solution)越小
image.png
image.png
  • 4.4 LASSO的擴展
  • LASSO的思想最開始用于線性回歸,稱之為LASSO回歸。但這種懲罰方式及其內(nèi)嵌的特征選擇功能,并不僅限于線性回歸中,可以擴展到其他算法中,如線性判別分析、PLS以及PCA。其中的一項重大拓展是Efron等于2004年提出的“最小角回歸”,即\color{red} { LARS}

參考文獻

R的glmnet和caret分別實現(xiàn)ElasticNetwork、LASSO、Ridge
R包ElasticNetwork算法原理和實現(xiàn)
LASSO、Ridge、ElasticNetwork的對比和適應(yīng)證

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 總結(jié) 線性回歸是有監(jiān)督學習里最常見也是最簡單的一種形式,可以分為一元線性回歸和多元線性回歸,適用情況為是連續(xù)型數(shù)據(jù)...
    忘詞x閱讀 3,182評論 0 0
  • 《精通機器學習:基于R 第二版》學習筆記 1、單變量線性回歸 1.1 散點圖,可以看到前后有兩個明顯的離群點 1...
    wonphen閱讀 1,510評論 0 10
  • 在統(tǒng)計學10-回歸一文中介紹了一元線性回歸的概念。假設(shè)我們現(xiàn)在有多個解釋變量,如何構(gòu)造多元線性回歸模型呢? 第一個...
    趙陽_c149閱讀 2,197評論 0 7
  • R中的線性回歸函數(shù)比較簡單,就是lm(),比較復(fù)雜的是對線性模型的診斷和調(diào)整。這里結(jié)合Statistical Le...
    真依然很拉風閱讀 67,103評論 1 64
  • 1、OLS線性回歸的基本原則 最優(yōu)擬合曲線應(yīng)該使各點到直線的距離的平方和(即殘差平方和,簡稱RSS)最小。 2、O...
    wonphen閱讀 1,819評論 0 2

友情鏈接更多精彩內(nèi)容