久久精品中文字幕一区,日日骚网站亚洲区

一、在建立線性回歸模型之前需要考慮的：

1、數(shù)據(jù)預(yù)處理：線性回歸是最簡單的回歸模型，模型具有很好的可解釋性，因而廣泛應(yīng)用于醫(yī)學統(tǒng)計建模領(lǐng)域。但由于其應(yīng)用條件的限制，使得應(yīng)用此方法建模時，在數(shù)據(jù)預(yù)處理階段需要做一些針對性的考量。
- 1.1 預(yù)測變量(特征)的共線性問題
- 共線性問題的診斷：相關(guān)性熱圖、PCA（有多少個占據(jù)主要方差的主成分，即意味著有多少組共線性的變量）、方差膨脹因子(VIF)
- 共線性問題的處理：《應(yīng)用預(yù)測建?！稰33提供的方法直接進行變量刪除；降維(如PCA,在這之前還要進行偏度變換和中心化及標準化)；含降維的回歸算法：elastic net族算法：含LASSO/ridge；能夠應(yīng)對變量共線性的模型：偏最小二乘(PLS)、Random Forest等
- 1.2 離群值的影響：一個離群值可能極大程度改變直線的走向
- 解決方法包括：1. 剔除離群值 2.采用SSE之外的損失函數(shù)，如殘差絕對值
2、模型性能問題：畢竟是一個線性模型，只能做線性擬合，其參數(shù)矩陣的形變能力是有限的。書中說到“顯然，如果數(shù)據(jù)具有曲線或非線性的結(jié)構(gòu)，回歸模型將無法刻畫這些特性”
- 2.1 診斷：判斷響應(yīng)變量與預(yù)測變量間關(guān)系的可視化方法是圖5-3所示的“基本診斷圖”：如果預(yù)測值與殘差的關(guān)系是曲線，則可能無法采用線性模型。
- 2.2 治療：如果響應(yīng)變量與預(yù)測變量間的非線性關(guān)系容易識別，可以通過往線性模型中添加二次項、三次項或者多次項來解決，則可以繼續(xù)應(yīng)用線性模型；否則應(yīng)采用更為復(fù)雜的、非線性的算法
3、數(shù)據(jù)分割與重抽樣造成的問題
如果有100個樣本，75個特征（此時樣本數(shù)大于特征數(shù)，全部用于建模是ok的）；但如果進行2:1交叉驗證，訓練集67*75；測試集 33:75，就會出現(xiàn)特征數(shù)大于樣本數(shù)的問題，此時應(yīng)在訓練和測試時考慮特征降維

二、線性回歸模型及其變體

1. 線性回歸模型：無需調(diào)參，只需要在建模前考慮好上述問題即可
2. 偏最小二乘回歸(Partial least squares regression,PLS regression,簡稱PLS)：是在應(yīng)用PCA降維方法的同時使得降維得到的主成分還要與響應(yīng)變量的相關(guān)系數(shù)達到最大。
- 換言之，PLS不等同于PCA之后再進行線性回歸；后者兩步驟是割裂的，PCA的時候，僅考慮使得樣本方差最大化的主成分，至于所得主成分是否與響應(yīng)變量具有足夠的聯(lián)系，則沒有納入考量；PCA之后再進行線性回歸，有可能所得到的主成分與響應(yīng)變量之間沒有足夠聯(lián)系，因而導(dǎo)致建模失??；PLS則是PCA與線性回歸一體化；同時考慮樣本方差最大化和所得主成分與響應(yīng)變量的相關(guān)性，在二者之間取得平衡。
- PLS有一個調(diào)優(yōu)參數(shù)，即需要保留的成分數(shù)，通過數(shù)據(jù)分割重抽樣來進行調(diào)參
- PLS 能夠計算變量的重要性系數(shù)(VIP)：VIP值越大，該變量對于響應(yīng)變量的重要性就越大；通常以1為cutoff,大于1認為該變量是有用的
3. PLS算法的演變：演變的目的，是要解決PLS算法在面對樣本量(n)和特征數(shù)(p)增大的場景下，其運算效率降低、對運算內(nèi)存要求增大。因此為了簡化運算，提升效率而提出了PLS的如下變體：

n>>p

- 3.1 將PLS的步驟分解為三個步驟：一個維度為P * P的“核”矩陣，預(yù)測變量的協(xié)方差矩陣(P * P ),以及預(yù)測變量與響應(yīng)變量的協(xié)方差矩陣(P*1)；這種類似于矩陣分解的算法提升了運算效率，包括de Jong 和 Ter Braak1994;Dayal和MacGregor 1997所提出的算法

- 3.2 將目標轉(zhuǎn)化為“在預(yù)測變量空間中尋找潛在的正交變量，使其最大化與響應(yīng)變量的協(xié)方差”；這一視角的轉(zhuǎn)變使得目標轉(zhuǎn)化為了縮減預(yù)測變量與響應(yīng)變量之間的協(xié)方差矩陣(P*1)，即SIMPLS

p>n: Rannar 1994

當然，PLS算法無論如何改進，其仍然是對原始預(yù)測變量空間進行線性變換得到其子空間，進而與響應(yīng)變量進行關(guān)聯(lián)；如果預(yù)測變量空間與響應(yīng)變量之間原本就具有的是“非線性相關(guān)/關(guān)聯(lián)”，那這是PLS或者所有線性回歸家族算法無法逾越的障礙。只能借助于非線性算法來解決問題。

4. 懲罰線性回歸：加入懲罰項的目的是限制單個特征的系數(shù)過大：加入懲罰項后的作用是當系數(shù)值只有在成比例地減小SSE的情況下，才可能取得取得很大的值，因而通過這種辦法限制了特征系數(shù)過大，也可以理解為對特征系數(shù)的收縮

最小二乘法回歸與各帶懲罰項線性回歸的公式比較

4.1 懲罰參數(shù)λ變化對RMSE的影響
懲罰參數(shù)λ從0開始增加的過程中，特征系數(shù)逐漸減小，此過程中，模型方差逐步減小，此時偏差受影響較小，因而RMSE逐步減少；到達臨界值后，方差已經(jīng)被控制得很好，而特征系數(shù)過分收縮帶來模型偏差過大(即欠擬合)，故RMSE增大。

嶺回歸中λ參數(shù)與RMSE的關(guān)系
4.2 LASSO、Ridge、ElasticNetwork的比較
- LASSO能夠使得某些特征系數(shù)為零，即內(nèi)嵌了“特征選擇”功能，Ridge不具備特征選擇的功能
- 彈性網(wǎng)絡(luò)包含了LASSO和Ridge，因而同步具有Ridge的特征和LASSO篩選特征的功能；分別將λ1和λ2設(shè)為0即可將其轉(zhuǎn)換為LASSO和Ridge中的任一；因而有些R包也是將LASSO和Ridge蘊含在了彈性網(wǎng)絡(luò)算法包中
- 要注意的是，書中提到的彈性網(wǎng)絡(luò)參數(shù)是 $\color{blue}{λ1、λ2}$ ；但實際的R包中彈性網(wǎng)絡(luò)的參數(shù)則是 $\color{red}{α、λ}$ ：
  
  R包中彈性網(wǎng)絡(luò)算法的損失函數(shù)及參數(shù))
- Lasso回歸(α = 1: )；嶺回歸(α = 0)；彈性網(wǎng)絡(luò)回歸(α ~（0,1）
4.3 LASSO結(jié)果判讀：兩幅圖雖然方向相反，但橫坐標含義本質(zhì)是相同的：λ越大，即懲罰參數(shù)越大，所剩的特征越少，當前解的個數(shù)相對于完全最小二乘解的比例（fraction of full solution）越小

image.png

4.4 LASSO的擴展
LASSO的思想最開始用于線性回歸，稱之為LASSO回歸。但這種懲罰方式及其內(nèi)嵌的特征選擇功能，并不僅限于線性回歸中，可以擴展到其他算法中，如線性判別分析、PLS以及PCA。其中的一項重大拓展是Efron等于2004年提出的“最小角回歸”，即 $\color{red} { LARS}$

參考文獻

R的glmnet和caret分別實現(xiàn)ElasticNetwork、LASSO、Ridge
R包ElasticNetwork算法原理和實現(xiàn)
LASSO、Ridge、ElasticNetwork的對比和適應(yīng)證

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

最簡單的回歸模型-線性回歸及其變體_chapter6

最簡單的回歸模型-線性回歸及其變體_chapter6

一、在建立線性回歸模型之前需要考慮的：

1.1 預(yù)測變量(特征)的共線性問題

1.2 離群值的影響：一個離群值可能極大程度改變直線的走向

2、模型性能問題：畢竟是一個線性模型，只能做線性擬合，其參數(shù)矩陣的形變能力是有限的。書中說到“顯然，如果數(shù)據(jù)具有曲線或非線性的結(jié)構(gòu)，回歸模型將無法刻畫這些特性”

3、數(shù)據(jù)分割與重抽樣造成的問題

二、線性回歸模型及其變體

1. 線性回歸模型：無需調(diào)參，只需要在建模前考慮好上述問題即可

2. 偏最小二乘回歸(Partial least squares regression,PLS regression,簡稱PLS)：是在應(yīng)用PCA降維方法的同時使得降維得到的主成分還要與響應(yīng)變量的相關(guān)系數(shù)達到最大。

3. PLS算法的演變：演變的目的，是要解決PLS算法在面對樣本量(n)和特征數(shù)(p)增大的場景下，其運算效率降低、對運算內(nèi)存要求增大。因此為了簡化運算，提升效率而提出了PLS的如下變體：

4.1 懲罰參數(shù)λ變化對RMSE的影響

4.2 LASSO、Ridge、ElasticNetwork的比較

4.3 LASSO結(jié)果判讀：兩幅圖雖然方向相反，但橫坐標含義本質(zhì)是相同的：λ越大，即懲罰參數(shù)越大，所剩的特征越少，當前解的個數(shù)相對于完全最小二乘解的比例（fraction of full solution）越小

4.4 LASSO的擴展

參考文獻

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

最簡單的回歸模型-線性回歸及其變體_chapter6

一、在建立線性回歸模型之前需要考慮的：

1.1 預(yù)測變量(特征)的共線性問題

1.2 離群值的影響：一個離群值可能極大程度改變直線的走向

2、模型性能問題：畢竟是一個線性模型，只能做線性擬合，其參數(shù)矩陣的形變能力是有限的。書中說到“顯然，如果數(shù)據(jù)具有曲線或非線性的結(jié)構(gòu)，回歸模型將無法刻畫這些特性”

3、數(shù)據(jù)分割與重抽樣造成的問題

二、線性回歸模型及其變體

1. 線性回歸模型：無需調(diào)參，只需要在建模前考慮好上述問題即可

2. 偏最小二乘回歸(Partial least squares regression,PLS regression,簡稱PLS)：是在應(yīng)用PCA降維方法的同時使得降維得到的主成分還要與響應(yīng)變量的相關(guān)系數(shù)達到最大。

3. PLS算法的演變：演變的目的，是要解決PLS算法在面對樣本量(n)和特征數(shù)(p)增大的場景下，其運算效率降低、對運算內(nèi)存要求增大。因此為了簡化運算，提升效率而提出了PLS的如下變體：

4.1 懲罰參數(shù)λ變化對RMSE的影響

4.2 LASSO、Ridge、ElasticNetwork的比較

4.3 LASSO結(jié)果判讀：兩幅圖雖然方向相反，但橫坐標含義本質(zhì)是相同的：λ越大，即懲罰參數(shù)越大，所剩的特征越少，當前解的個數(shù)相對于完全最小二乘解的比例（fraction of full solution）越小

4.4 LASSO的擴展

參考文獻

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、在建立線性回歸模型之前需要考慮的：

2、模型性能問題：畢竟是一個線性模型，只能做線性擬合，其參數(shù)矩陣的形變能力是有限的。書中說到“顯然，如果數(shù)據(jù)具有曲線或非線性的結(jié)構(gòu)，回歸模型將無法刻畫這些特性”

3、數(shù)據(jù)分割與重抽樣造成的問題

二、線性回歸模型及其變體

1. 線性回歸模型：無需調(diào)參，只需要在建模前考慮好上述問題即可

2. 偏最小二乘回歸(Partial least squares regression,PLS regression,簡稱PLS)：是在應(yīng)用PCA降維方法的同時使得降維得到的主成分還要與響應(yīng)變量的相關(guān)系數(shù)達到最大。

3. PLS算法的演變：演變的目的，是要解決PLS算法在面對樣本量(n)和特征數(shù)(p)增大的場景下，其運算效率降低、對運算內(nèi)存要求增大。因此為了簡化運算，提升效率而提出了PLS的如下變體：

4.2 LASSO、Ridge、ElasticNetwork的比較

4.3 LASSO結(jié)果判讀：兩幅圖雖然方向相反，但橫坐標含義本質(zhì)是相同的：λ越大，即懲罰參數(shù)越大，所剩的特征越少，當前解的個數(shù)相對于完全最小二乘解的比例（fraction of full solution）越小