機(jī)器學(xué)習(xí)里一個比較典型的問題是模式識別,也可以理解為對數(shù)據(jù)的自動分類。
一些術(shù)語
- 訓(xùn)練和學(xué)習(xí)過程
- 測試和泛化過程
- 特征抽取
數(shù)據(jù)預(yù)處理(旋轉(zhuǎn),放縮等等)
用較低的空間編碼表示輸入和測試數(shù)據(jù) - 監(jiān)督學(xué)習(xí)
分類(離散)或者回歸(連續(xù)) - 無監(jiān)督學(xué)習(xí)
聚類,密度估計 - 強(qiáng)化學(xué)習(xí)
從一個多項(xiàng)式曲線擬合的例子說起,損失函數(shù)是預(yù)測函數(shù)值和真實(shí)標(biāo)簽值的平方誤差
多項(xiàng)式的階數(shù)太低的話欠擬合,太高的話會過擬合,可以畫一個不同階數(shù)的訓(xùn)練和測試誤差圖走勢來觀察什么階數(shù)比較合適

如果階數(shù)固定,同時增加數(shù)據(jù)點(diǎn)的個數(shù)可以緩解過擬合
事實(shí)上,最大似然估計很容易過擬合(MLE),這時候就可以考慮加入貝葉斯模型的思想,從某種意義上來說,貝葉斯模型的加入也是一種正則化手段
在正則化參數(shù)平方項(xiàng)前面的正則化參數(shù)可以有效地控制模型的復(fù)雜度
貝葉斯和頻率流派的不同做法
他們都用到了likelihood,但是likelihood扮演的角色不同。
在頻率流派里,w是被最大似然估計出來的,error bar是被所有可能的數(shù)據(jù)分布估計出來的(也就是不同bootstrap數(shù)據(jù)集中的預(yù)測方差)
bootstrap是從初始樣本重復(fù)隨機(jī)替換抽樣,生成一系列待檢驗(yàn)的統(tǒng)計量的經(jīng)驗(yàn)分布(通常用于
- 均值的樣本分布為正態(tài)分布
- 有嚴(yán)重的離群點(diǎn)或者樣本容量不夠大的
數(shù)據(jù)集中)
在貝葉斯方法中,只有一個數(shù)據(jù)集D,w是和先驗(yàn)和后驗(yàn)概率聯(lián)系在一起的
1.給出的是一個分布
2.高斯核
3.local support 點(diǎn)估計
高斯分布
我們知道對高斯分布求最大log似然函數(shù),然后求導(dǎo),得到均值和方差的估計值,均值是無偏估計,而方差是偏小的(N-1)/N