第十一課 貝葉斯統(tǒng)計正則化

**就是要找更好的估計方法來減少過度擬合情況的發(fā)生。 **

大綱

  • 貝葉斯統(tǒng)計及正則化
  • 在線學(xué)習(xí)
  • 如何使用機器學(xué)習(xí)算法解決具體問題:診斷算法,銷蝕分析,過早優(yōu)化

筆記:http://www.cnblogs.com/XBWer/p/4336071.html

問題提出
如果選取的特征太少,欠擬合,對于訓(xùn)練集的擬合效果不好,對于測試集的預(yù)測效果應(yīng)該也不會好;但是如果選取的特征太多,過擬合,對于訓(xùn)練集的擬合效果非常好,但是對于測試集的集合效果會變差。

欠擬合
合適的擬合
過擬合

解決過擬合的方法:

  • 減少特征的數(shù)量:
    -人工的選擇保留哪些特征;
    -模型選擇算法(上一講)

  • 正則化
    -保留所有的特征,但是降低參數(shù)的量/值;
    -正則化的好處是當(dāng)特征很多時,每一個特征都會對預(yù)測y貢獻一份合適的力量;

</br>

1. 貝葉斯統(tǒng)計及其正則化

</br>
貝葉斯公式(用來求后驗概率的):


貝葉斯公式

對于參數(shù)theta的值

  • 頻率學(xué)派認(rèn)為這個值是固定的,我們可以通過極大似然估計去猜測這個值。MLE:最大似然估計
  • 貝葉斯學(xué)派認(rèn)為這個值是一個隨機變量。服從某個先驗分布(實際應(yīng)用中一般是自然分布作為先驗分布),theta-p(theta)。后驗概率可以用貝葉斯公式求出 MAP:maximum a posteriori 最大后驗估計
后驗概率

這個公式的計算量其實很大,所以實際應(yīng)用中一般都用最大化后驗概率來求出theta,然后帶入假設(shè)模型htheta(x)中預(yù)測:

最大化后驗概率

可以與極大似然估計求theta的公式比較一下:

極大似然估計

發(fā)現(xiàn)其實用貝葉斯法求theta只是在末尾加了一個p(theta).

用后驗概率法得到的參數(shù)theta更不容易擬合,從而降低了過擬合的概率。

</br>
正則化
模型選擇的典型方法是正則化。正則化是結(jié)構(gòu)風(fēng)險最小化策略的實現(xiàn),是在經(jīng)驗風(fēng)險上加一個正則化項(regularizer)或罰項(penalty term)。正則化項一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化值就越大。比如,正則化項可以是模型參數(shù)向量的范數(shù)。

對于代價函數(shù):

  • 最大似然估計法是用最小二乘的原理


  • 后驗概率分布估計則是又引入了一個相當(dāng)于懲罰項的正則項



    這樣就可以使得高次項的貢獻權(quán)重降低,減少過擬合的可能性。

線性回歸的正則化

邏輯回歸的正則化

</br>
</br>

2. 在線學(xué)習(xí)

</br>
什么是在線學(xué)習(xí)?

  • 之前學(xué)習(xí)的算法都屬于批量學(xué)習(xí)(batch learning),一次性批量輸入給學(xué)習(xí)算法,可以被形象的稱為填鴨式學(xué)習(xí)。
  • 在線學(xué)習(xí)(online learning),按照順序,循序的學(xué)習(xí),不斷的去修正模型,進行優(yōu)化。
    在線學(xué)習(xí)首先有一個初始的分類器,當(dāng)?shù)谝粋€樣本到來時,對該樣本進行預(yù)測,得到預(yù)測結(jié)果,然后利用該樣本的信息對分類器進行更新(比如,考慮感知器算法的更新規(guī)則,見筆記 1-2);然后第二個樣本到來時做同樣的操作,以此類推。這樣,我們就對 m 個樣本都有一個預(yù)測值,只不過它們都是在訓(xùn)練的過程中得到的,對這些預(yù)測值進行統(tǒng)計,就得到了在線訓(xùn)練誤差。這就是過程上在線學(xué)習(xí)與批處理的不同之處。

感知器
就是二類分類的線性分類模型,其輸入為樣本的特征向量,輸出為樣本的類別,取+1和-1二值,即通過某樣本的特征,就可以準(zhǔn)確判斷該樣本屬于哪一類。顧名思義,感知機能夠解決的問題首先要求特征空間是線性可分的,再者是二類分類,即將樣本分為{+1, -1}兩類。

對于感知器算法來說,若正負(fù)樣本線性可分,那么在線學(xué)習(xí)算法也是收斂的。

3. 算法的改進方法

</br>
a. 算法診斷
如果現(xiàn)存算法的預(yù)測效果比較差,可以考慮的改進因素一般有:

怎么去選擇最有效的改進算法是這部分的目的。

  • 方差/偏差分析
    高方差--過擬合,訓(xùn)練誤差很小但泛化誤差很大。
    需要更多的數(shù)據(jù)解決或者更少的特征解決。
    高方差的誤差率

    </br>
    高偏差--模型本身不合適,比如特征數(shù)目過少,表現(xiàn)是訓(xùn)練誤差和泛化誤差都很大。
    需要更多的特征或者更復(fù)雜的模型來解決。
    高偏差的誤差率

</br>

  • 是否收斂和目標(biāo)函數(shù)是否正確的判斷*
    可以畫出迭代次數(shù)和目標(biāo)函數(shù)的趨勢圖,但一般很難判斷,因為每次優(yōu)化的只是一小部分。
    (這部分還不太懂)

b. 銷蝕分析
比如對于垃圾郵件分類器來說,先構(gòu)建一個初始分類器,然后考慮一些比較高級的特征,比如郵件的語法風(fēng)格、郵件的主機信息、郵件標(biāo)題等。先將所有特征全加入到分類器中,然后逐個剔除,觀察性能的下降幅度,將那些沒有使性能下降或下降很少的特征刪去。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容