**就是要找更好的估計方法來減少過度擬合情況的發(fā)生。 **
大綱
- 貝葉斯統(tǒng)計及正則化
- 在線學(xué)習(xí)
- 如何使用機器學(xué)習(xí)算法解決具體問題:診斷算法,銷蝕分析,過早優(yōu)化
筆記:http://www.cnblogs.com/XBWer/p/4336071.html
問題提出
如果選取的特征太少,欠擬合,對于訓(xùn)練集的擬合效果不好,對于測試集的預(yù)測效果應(yīng)該也不會好;但是如果選取的特征太多,過擬合,對于訓(xùn)練集的擬合效果非常好,但是對于測試集的集合效果會變差。



解決過擬合的方法:
減少特征的數(shù)量:
-人工的選擇保留哪些特征;
-模型選擇算法(上一講)正則化
-保留所有的特征,但是降低參數(shù)的量/值;
-正則化的好處是當(dāng)特征很多時,每一個特征都會對預(yù)測y貢獻一份合適的力量;
</br>
1. 貝葉斯統(tǒng)計及其正則化
</br>
貝葉斯公式(用來求后驗概率的):

對于參數(shù)theta的值
- 頻率學(xué)派認(rèn)為這個值是固定的,我們可以通過極大似然估計去猜測這個值。MLE:最大似然估計
- 貝葉斯學(xué)派認(rèn)為這個值是一個隨機變量。服從某個先驗分布(實際應(yīng)用中一般是自然分布作為先驗分布),theta-p(theta)。后驗概率可以用貝葉斯公式求出 MAP:maximum a posteriori 最大后驗估計:

這個公式的計算量其實很大,所以實際應(yīng)用中一般都用最大化后驗概率來求出theta,然后帶入假設(shè)模型htheta(x)中預(yù)測:

可以與極大似然估計求theta的公式比較一下:

發(fā)現(xiàn)其實用貝葉斯法求theta只是在末尾加了一個p(theta).
用后驗概率法得到的參數(shù)theta更不容易擬合,從而降低了過擬合的概率。
</br>
正則化
模型選擇的典型方法是正則化。正則化是結(jié)構(gòu)風(fēng)險最小化策略的實現(xiàn),是在經(jīng)驗風(fēng)險上加一個正則化項(regularizer)或罰項(penalty term)。正則化項一般是模型復(fù)雜度的單調(diào)遞增函數(shù),模型越復(fù)雜,正則化值就越大。比如,正則化項可以是模型參數(shù)向量的范數(shù)。
對于代價函數(shù):
-
最大似然估計法是用最小二乘的原理
-
后驗概率分布估計則是又引入了一個相當(dāng)于懲罰項的正則項
這樣就可以使得高次項的貢獻權(quán)重降低,減少過擬合的可能性。
線性回歸的正則化
邏輯回歸的正則化
</br>
</br>
2. 在線學(xué)習(xí)
</br>
什么是在線學(xué)習(xí)?
- 之前學(xué)習(xí)的算法都屬于批量學(xué)習(xí)(batch learning),一次性批量輸入給學(xué)習(xí)算法,可以被形象的稱為填鴨式學(xué)習(xí)。
- 在線學(xué)習(xí)(online learning),按照順序,循序的學(xué)習(xí),不斷的去修正模型,進行優(yōu)化。
在線學(xué)習(xí)首先有一個初始的分類器,當(dāng)?shù)谝粋€樣本到來時,對該樣本進行預(yù)測,得到預(yù)測結(jié)果,然后利用該樣本的信息對分類器進行更新(比如,考慮感知器算法的更新規(guī)則,見筆記 1-2);然后第二個樣本到來時做同樣的操作,以此類推。這樣,我們就對 m 個樣本都有一個預(yù)測值,只不過它們都是在訓(xùn)練的過程中得到的,對這些預(yù)測值進行統(tǒng)計,就得到了在線訓(xùn)練誤差。這就是過程上在線學(xué)習(xí)與批處理的不同之處。
感知器:
就是二類分類的線性分類模型,其輸入為樣本的特征向量,輸出為樣本的類別,取+1和-1二值,即通過某樣本的特征,就可以準(zhǔn)確判斷該樣本屬于哪一類。顧名思義,感知機能夠解決的問題首先要求特征空間是線性可分的,再者是二類分類,即將樣本分為{+1, -1}兩類。
對于感知器算法來說,若正負(fù)樣本線性可分,那么在線學(xué)習(xí)算法也是收斂的。
3. 算法的改進方法
</br>
a. 算法診斷
如果現(xiàn)存算法的預(yù)測效果比較差,可以考慮的改進因素一般有:

怎么去選擇最有效的改進算法是這部分的目的。
-
方差/偏差分析
高方差--過擬合,訓(xùn)練誤差很小但泛化誤差很大。
需要更多的數(shù)據(jù)解決或者更少的特征解決。
高方差的誤差率
</br>
高偏差--模型本身不合適,比如特征數(shù)目過少,表現(xiàn)是訓(xùn)練誤差和泛化誤差都很大。
需要更多的特征或者更復(fù)雜的模型來解決。
高偏差的誤差率
</br>
-
是否收斂和目標(biāo)函數(shù)是否正確的判斷*
可以畫出迭代次數(shù)和目標(biāo)函數(shù)的趨勢圖,但一般很難判斷,因為每次優(yōu)化的只是一小部分。
(這部分還不太懂)
b. 銷蝕分析
比如對于垃圾郵件分類器來說,先構(gòu)建一個初始分類器,然后考慮一些比較高級的特征,比如郵件的語法風(fēng)格、郵件的主機信息、郵件標(biāo)題等。先將所有特征全加入到分類器中,然后逐個剔除,觀察性能的下降幅度,將那些沒有使性能下降或下降很少的特征刪去。



