本篇文章主要基于以下資料:開源文檔:https://datawhalechina.github.io/leeml-notes? ?視頻地址:https://www.bilibili.com/video/BV1Ht411g7Ef
一、誤差的來源
Error?的主要來源,分別是?bias?和?variance。在研究過程中通常會(huì)遇到bias-variance-trade-off。在K-fold validation中,當(dāng) K 值大的時(shí)候, 我們會(huì)有更少的 Bias(偏差)、更多的 Variance。當(dāng) K 值小的時(shí)候, 我們會(huì)有更多的 Bias(偏差)、更少的 Variance。

模型越復(fù)雜,估計(jì)的方差越大,但是估計(jì)的偏差反而越小。直觀的解釋:簡單的模型函數(shù)集的space比較小,所以可能space里面就沒有包含靶心,肯定射不中。而復(fù)雜的模型函數(shù)集的space比較大,可能就包含的靶心,只是沒有辦法找到確切的靶心在哪。
總結(jié):如果一個(gè)模型的偏差比較大,那么應(yīng)該加入更多的predictors去擴(kuò)充模型,增加模型的復(fù)雜度,如果一個(gè)模型的方差比較大,就需要增加樣本量。
二、梯度下降
1.學(xué)習(xí)率的重要性
學(xué)習(xí)率太小,損失函數(shù)下降的非常慢;學(xué)習(xí)率太大,損失函數(shù)下降很快,但馬上就卡住不下降了;學(xué)習(xí)率特別大,損失函數(shù)就飛出去了。因此選擇一個(gè)合適的學(xué)習(xí)率很重要。
2.學(xué)習(xí)率的確定
自適應(yīng)學(xué)習(xí)可以使得在初始時(shí)學(xué)習(xí)率比較大,收斂速度較快,當(dāng)越來越接近真實(shí)值時(shí),學(xué)習(xí)率則比較小。
(1)Adagrad算法

缺陷:在多參數(shù)情況下不一定成立。
(2)隨機(jī)梯度下降法

對(duì)每一個(gè)樣本都進(jìn)行一次update,通常的梯度下降是集合所有樣本的loss function,每一次update是針對(duì)所有樣本的。
(3)特征縮放

這樣子可以使得在不同方向上使用相同的學(xué)習(xí)率。