7-4貝葉斯

機(jī)器學(xué)習(xí)里一個比較典型的問題是模式識別,也可以理解為對數(shù)據(jù)的自動分類。

一些術(shù)語

  • 訓(xùn)練和學(xué)習(xí)過程
  • 測試和泛化過程
  • 特征抽取
    數(shù)據(jù)預(yù)處理(旋轉(zhuǎn),放縮等等)
    用較低的空間編碼表示輸入和測試數(shù)據(jù)
  • 監(jiān)督學(xué)習(xí)
    分類(離散)或者回歸(連續(xù))
  • 無監(jiān)督學(xué)習(xí)
    聚類,密度估計
  • 強(qiáng)化學(xué)習(xí)

從一個多項(xiàng)式曲線擬合的例子說起,損失函數(shù)是預(yù)測函數(shù)值和真實(shí)標(biāo)簽值的平方誤差
多項(xiàng)式的階數(shù)太低的話欠擬合,太高的話會過擬合,可以畫一個不同階數(shù)的訓(xùn)練和測試誤差圖走勢來觀察什么階數(shù)比較合適


RMS(root mean square)

如果階數(shù)固定,同時增加數(shù)據(jù)點(diǎn)的個數(shù)可以緩解過擬合

事實(shí)上,最大似然估計很容易過擬合(MLE),這時候就可以考慮加入貝葉斯模型的思想,從某種意義上來說,貝葉斯模型的加入也是一種正則化手段

在正則化參數(shù)平方項(xiàng)前面的正則化參數(shù)可以有效地控制模型的復(fù)雜度

貝葉斯和頻率流派的不同做法

他們都用到了likelihood,但是likelihood扮演的角色不同。
在頻率流派里,w是被最大似然估計出來的,error bar是被所有可能的數(shù)據(jù)分布估計出來的(也就是不同bootstrap數(shù)據(jù)集中的預(yù)測方差)
bootstrap是從初始樣本重復(fù)隨機(jī)替換抽樣,生成一系列待檢驗(yàn)的統(tǒng)計量的經(jīng)驗(yàn)分布(通常用于

  1. 均值的樣本分布為正態(tài)分布
  2. 有嚴(yán)重的離群點(diǎn)或者樣本容量不夠大的
    數(shù)據(jù)集中)

在貝葉斯方法中,只有一個數(shù)據(jù)集D,w是和先驗(yàn)和后驗(yàn)概率聯(lián)系在一起的

1.給出的是一個分布
2.高斯核
3.local support 點(diǎn)估計

高斯分布

我們知道對高斯分布求最大log似然函數(shù),然后求導(dǎo),得到均值和方差的估計值,均值是無偏估計,而方差是偏小的(N-1)/N

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容