李宏毅機(jī)器學(xué)習(xí)part5-8

本篇文章主要基于以下資料:開源文檔:https://datawhalechina.github.io/leeml-notes? ?視頻地址:https://www.bilibili.com/video/BV1Ht411g7Ef

一、誤差的來源

Error?的主要來源,分別是?bias?和?variance。在研究過程中通常會(huì)遇到bias-variance-trade-off。在K-fold validation中,當(dāng) K 值大的時(shí)候, 我們會(huì)有更少的 Bias(偏差)、更多的 Variance。當(dāng) K 值小的時(shí)候, 我們會(huì)有更多的 Bias(偏差)、更少的 Variance。

圖片來源:https://datawhalechina.github.io/leeml-notes?

模型越復(fù)雜,估計(jì)的方差越大,但是估計(jì)的偏差反而越小。直觀的解釋:簡單的模型函數(shù)集的space比較小,所以可能space里面就沒有包含靶心,肯定射不中。而復(fù)雜的模型函數(shù)集的space比較大,可能就包含的靶心,只是沒有辦法找到確切的靶心在哪。

總結(jié):如果一個(gè)模型的偏差比較大,那么應(yīng)該加入更多的predictors去擴(kuò)充模型,增加模型的復(fù)雜度,如果一個(gè)模型的方差比較大,就需要增加樣本量。

二、梯度下降

1.學(xué)習(xí)率的重要性

學(xué)習(xí)率太小,損失函數(shù)下降的非常慢;學(xué)習(xí)率太大,損失函數(shù)下降很快,但馬上就卡住不下降了;學(xué)習(xí)率特別大,損失函數(shù)就飛出去了。因此選擇一個(gè)合適的學(xué)習(xí)率很重要。

2.學(xué)習(xí)率的確定

自適應(yīng)學(xué)習(xí)可以使得在初始時(shí)學(xué)習(xí)率比較大,收斂速度較快,當(dāng)越來越接近真實(shí)值時(shí),學(xué)習(xí)率則比較小。

(1)Adagrad算法

圖片來源:https://datawhalechina.github.io/leeml-notes ,其中 σt?:之前參數(shù)的所有微分的均方根,對(duì)于每個(gè)參數(shù)都是不一樣的。

缺陷:在多參數(shù)情況下不一定成立。

(2)隨機(jī)梯度下降法

圖片來源:https://datawhalechina.github.io/leeml-notes?

對(duì)每一個(gè)樣本都進(jìn)行一次update,通常的梯度下降是集合所有樣本的loss function,每一次update是針對(duì)所有樣本的。

(3)特征縮放

圖片來源:https://datawhalechina.github.io/leeml-notes?

這樣子可以使得在不同方向上使用相同的學(xué)習(xí)率。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容