【算法】過擬合現(xiàn)象

過擬合現(xiàn)象

為了得到一致假設(shè)而使假設(shè)變得過度復(fù)雜稱為過擬合。想像某種學(xué)習(xí)算法產(chǎn)生了一個(gè)過擬合的分類器,這個(gè)分類器能夠百分之百的正確分類樣本數(shù)據(jù)(即再拿樣本中的文檔來給它,它絕對不會(huì)分錯(cuò)),但也就為了能夠?qū)颖就耆_的分類,使得它的構(gòu)造如此精細(xì)復(fù)雜,規(guī)則如此嚴(yán)格,以至于任何與樣本數(shù)據(jù)稍有不同的文檔它全都認(rèn)為不屬于這個(gè)類別。簡言之,就是與樣本擬合的很好,但是不能很好的預(yù)測實(shí)際的情況。
線性回歸的過擬合現(xiàn)象:


線性回歸

邏輯回歸的過擬合現(xiàn)象:


邏輯回歸

解決方案

減少特征量

  • 人工檢查變量,決定哪些更加重要,哪些應(yīng)該舍棄。
  • 模型選擇算法:為了自動(dòng)的完成“人工檢查變量”

正則化

正則化思想是保留所有的特征量,只改變參數(shù)\theta的大小,通過懲罰一些參數(shù)得到更為簡單的假設(shè)函數(shù)。

以線性回歸為例:
我們可以把代價(jià)函數(shù)寫成這樣:
J(\theta)= \frac{1}{2m}\Sigma_{i=1}^m(h_\theta(x^{(i)}-y^{(i)})^2) +\lambda\Sigma_{j=1}^n\theta_j^2
注:\theta_j的序號從1開始而不是從0開始,\lambda叫做正則化參數(shù)是一個(gè)整數(shù)。\lambda的目的是為了平衡兩個(gè)目標(biāo)。

  • 第一個(gè)目標(biāo)就是我們想要訓(xùn)練,使假設(shè)更好地?cái)M合訓(xùn)練數(shù)據(jù)。
  • 第二個(gè)目標(biāo)是我們想要保持參數(shù)值較小

求解

仍然有兩種方法:

  • 梯度下降
  • 代數(shù)方法:\theta = (X^{\tau} X+\lambda X)^{-1} X^{\tau} Y(E為單位矩陣)
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容