引言:
最近開始學(xué)習(xí)“機(jī)器學(xué)習(xí)”,早就聽說祖國寶島的李宏毅老師的大名,一直沒有時(shí)間看他的系列課程。今天聽了一課,感覺非常棒,通俗易懂,而又能夠抓住重點(diǎn),中間還能加上一些很有趣的例子加深學(xué)生的印象。
視頻鏈接(bilibili):李宏毅機(jī)器學(xué)習(xí)(2017)
另外已經(jīng)有有心的同學(xué)做了速記并更新在github上:李宏毅機(jī)器學(xué)習(xí)筆記(LeeML-Notes)
所以,接下來我的筆記只記錄一些我自己的總結(jié)和聽課當(dāng)時(shí)的困惑,如果有能夠幫我解答的朋友也請多多指教。
1、回歸問題的應(yīng)用

回歸問題因?yàn)橹饕敵龅氖菙?shù)字,所以可以有以下應(yīng)用:
- 股票市場預(yù)測:輸入歷史股票數(shù)據(jù),預(yù)測第二天大盤點(diǎn)位
- 自動(dòng)駕駛:輸出的是方向盤應(yīng)該轉(zhuǎn)動(dòng)的角度
- 推薦系統(tǒng):輸出購買者購買某商品或閱讀某文章的可能性
2、解決回歸問題需要了解的一些概念

以寶可夢訓(xùn)練后的CP值(戰(zhàn)斗力數(shù)值)預(yù)測為例,y=b+wxcp這組線性函數(shù)就是模型(model),xi 是特征(feature),wi 是權(quán)重(weight),b是偏差(bias)
3、寶可夢cp預(yù)測項(xiàng)目的分析步驟
- 根據(jù)數(shù)據(jù)選擇模型:選擇線性模型
- 評估模型中函數(shù)的好壞:根據(jù)10只寶可夢的訓(xùn)練數(shù)據(jù)計(jì)算出估測誤差loss function(如圖3)
-
選出最好的函數(shù):即第二步中可以使得loss function中數(shù)值最小的函數(shù)。這里李老師推薦方法為gradient descent(梯度下降法),因?yàn)樗且环N對可微函數(shù)取最小值的通用解決方案。
圖3
圖4
4、Gradient descent(梯度下降法)

以比較簡單的損失函數(shù)為例(如圖5),梯度下降法就是對該函數(shù)的x坐標(biāo)求導(dǎo),即曲線在該點(diǎn)的斜率,如果斜率為負(fù),需要向右加載,反之亦然,知道斜率為零,找到極小值或局部最優(yōu)解(Local optimal)。每次加載的距離被稱為步長或?qū)W習(xí)率。

5、梯度下降法最害怕的事情
如圖6左側(cè),如果損失函數(shù)像左側(cè)那樣,那么梯度下降法能不能找到全局的最優(yōu)解就是考驗(yàn)“人品”的事情,但幸運(yùn)的是,對于線性回歸問題,它的損失函數(shù)都是凸函數(shù)(convex),也就是不會出現(xiàn)像圖5或圖6左側(cè)那種情況,它只有最小值,沒有局部的極小值。
6、如何讓損失值降到最?。?/h4>
圖7
圖8
圖9
圖10




損失函數(shù)取值最小,很多人第一感覺就是增加函數(shù)的復(fù)雜度。圖7到圖10分別是二元至五元方程的模型,但可以看出雖然在訓(xùn)練集上損失值變得較小,但測試集上卻沒有這種趨勢,甚至五元方程的模型還表現(xiàn)出了很荒謬的結(jié)果。

7、過擬合

上面出現(xiàn)那種荒謬結(jié)果的現(xiàn)象被稱為過擬合。
8、導(dǎo)入更多數(shù)據(jù)后結(jié)果如何?

導(dǎo)入更多數(shù)據(jù)后發(fā)現(xiàn),很多寶可夢的點(diǎn)并沒有落在預(yù)測的模型函數(shù)曲線上,推測在起初建模的時(shí)候忽略了一些重要的特征(feature),當(dāng)不同類型的寶可夢訓(xùn)練的時(shí)候,成長曲線是不同的。

增加特征以后如何構(gòu)建線性模型?見圖14。
9、如何防止過擬合?

需要重新定義損失函數(shù),有一種方法叫正則化。
因?yàn)檫^擬合往往是因?yàn)樵心P涂臻g過大,而正則化就是一種控制模型空間的方法。

