李宏毅機(jī)器學(xué)習(xí)(二)回歸1

回歸

上節(jié)課已經(jīng)說了回歸實(shí)現(xiàn)輸入訓(xùn)練數(shù)據(jù)生成函數(shù),函數(shù)的輸出是連續(xù)的值

如下圖的輸入股票前一段時(shí)間的數(shù)據(jù),預(yù)測(cè)未來幾天的數(shù)據(jù)

自動(dòng)駕駛汽車輸入傳感器收集的各種信息,輸出方向盤角度

網(wǎng)站購(gòu)物的推薦系統(tǒng),輸入某個(gè)使用者(多種特征)和商品,輸出購(gòu)買商品打的可能性

插圖1 回歸的幾種常見樣例

老師以寶可夢(mèng)為例,以輸入寶可夢(mèng)進(jìn)化前的CP值,求出進(jìn)化后的cp值

Model?

?步驟一確定模型,即從一組function集合中,選出一個(gè)

y=b+w.xcp其中,b和w開始是隨機(jī)的,模型3雖然在集合內(nèi),但顯然是不符合的

線性模型 Linear Model

可以寫成y=b+\sum\nolimits_{1}^Nwixi的模型,b為偏置,xi為輸入的N種屬性的第i個(gè),也叫特征

wi為對(duì)應(yīng)特征的系數(shù),也叫權(quán)重

插圖2?

這里將真實(shí)值作為\hat{y} (可能李老師喜歡這么定義),從圖中可以看出,選出10個(gè)寶可夢(mèng)的cp值進(jìn)化前后的關(guān)系,大致呈線性

插圖3

步驟2 判斷函數(shù)的優(yōu)劣

有了函數(shù)模型后,給定一組測(cè)試數(shù)據(jù),就可以根據(jù)公式來求出損失函數(shù)的值,根據(jù)大小來判斷優(yōu)劣

圖中使用了方差來作為損失函數(shù),損失函數(shù)可以自己選擇函數(shù)模型

插圖4

步驟3 ?選出最優(yōu)函數(shù)

函數(shù)集有很多個(gè)函數(shù),把這個(gè)函數(shù)選出來,也就是選擇出最優(yōu)(損失函數(shù)取得最?。┑膮?shù)的過程

插圖5

梯度下降優(yōu)化

有題目可知影響損失函數(shù)的主要是參數(shù)w和b,這里先分析w的影響

如圖l(w)是跟w有關(guān)的函數(shù),初始隨機(jī)一點(diǎn),可得出此點(diǎn)的斜率,我們?yōu)榱苏页鲎钚≈担庞锰荻认陆档姆椒?,即?dǎo)數(shù)大于0,就向后選下一點(diǎn),否則向前(步進(jìn)始終朝向下)

我們走下一步取決于當(dāng)前的導(dǎo)數(shù)還取決于學(xué)習(xí)率\eta ,如此繼續(xù)更新每一步,經(jīng)過多次迭代,就會(huì)達(dá)到一個(gè)局部最低點(diǎn)(不一定是全局最低),線性回歸是沒有局部最低的(見圖7右側(cè)等高線圖),偏置b的更新和w同理

插圖6
插圖7

當(dāng)然L損失函數(shù)考慮是w,b的二元函數(shù)才是最準(zhǔn)確的,具體就需要考慮偏微分,所以我們講的梯度下降就是

偏微分向量▽L

插圖8

我們得到了模型,以寶可夢(mèng)來說,w,b梯度優(yōu)化后如圖,用了距離e_{i} 表示第i個(gè)位置到函數(shù)直線的y向距離

可以將距離求和得到一個(gè)評(píng)估

當(dāng)然我們更關(guān)心的是測(cè)試數(shù)據(jù)的數(shù)值,在圖上都已經(jīng)列出

插圖9

如果我們考慮采用二次函數(shù)模型,就變成了3個(gè)參數(shù),多了個(gè)二次項(xiàng)系數(shù)

以寶可夢(mèng)來說,這個(gè)采用二次項(xiàng)擬合的函數(shù)性能是優(yōu)化了的,當(dāng)然高次擬合計(jì)算量也大

插圖10

如果我們?cè)僭囍萌魏退拇螖M合呢,如下2張分別是3,4次擬合

三次比之前的2次擬合略優(yōu)了點(diǎn),但是四次擬合僅在訓(xùn)練集距離和優(yōu)化,但是我們想要的測(cè)試集卻變大了

插圖11
插圖12

過擬合

復(fù)雜的模型在訓(xùn)練集得到很好的擬合,但是在測(cè)試集卻誤差較大,這種現(xiàn)象叫做過擬合

為了防止過擬合,一個(gè)是收集樣本要分布均勻,二是建立合適的模型,三是選擇合適的特征,當(dāng)然還有加正則項(xiàng)


Regularization正則化

我們?cè)谠瓉淼膿p失函數(shù)上添加一個(gè)正則項(xiàng)\lambda \sum_{1}^Nw_{i} ^2 ,正則項(xiàng)系數(shù)根據(jù)情況可以調(diào)節(jié),如\lambda 較大時(shí),限制w會(huì)較小且平滑,這樣會(huì)受噪聲的影響比較小

插圖13

如圖,我們引入正則項(xiàng)后,調(diào)整\lambda ,得到對(duì)訓(xùn)練集和測(cè)試集的誤差,\lambda 越大,訓(xùn)練集誤差越大,因?yàn)槲覀兏涌紤]權(quán)重而不是誤差,但是可能測(cè)試集的誤差不會(huì)很大,所以我們希望平滑,但是不要太平滑

插圖14
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容