模型的狀態(tài)(過擬合與欠擬合)

轉(zhuǎn)自july算法班:

模型的狀態(tài)分為過擬合和欠擬合

過擬合(overfitting/high variance) 高波動性

欠擬合(underfitting/high bias) ?高偏差

模型的過擬合具有高波動性
知識圖譜學習

比如給出一些樣本點,需要在上面畫畫,第一張圖毫無規(guī)律可尋,稱為欠擬合。而中間圖找出了一些樣本點之間的關(guān)聯(lián)性。最后一張圖根據(jù)樣本點畫出了一只貓。我們稱為過擬合??梢赃@樣想,如果這些點只能畫出貓是不是局限了我們想象力呢?難道不能畫出一只仰頭的兔子來嗎?

所以我們要尋找的規(guī)律不是一種特殊的規(guī)律,而是一種普適的一般性的規(guī)律,它既對已知數(shù)據(jù)有較好的擬合對未知數(shù)據(jù)也沒有較大的偏差性。

---模型狀態(tài)驗證工具:學習曲線

學習曲線

---不同模型狀態(tài)的處理

---過擬合,找更多的數(shù)據(jù)來學習

---增大正則化系數(shù)

---減少特征個數(shù)(不太推薦)

注意:不要以為降維就可以解決過擬合的問題

----2. 欠擬合

-----找到更多特征

-----減小正則化系數(shù)


---線性模型的權(quán)重分析

----1.線性或者線性kernel的model

---Linear Regression

---Logistic Regression

---Linear SVM

------2. 對權(quán)重絕對值高/低的特征

---做更細化的工作

----特征組合

-----優(yōu)化3之Bad-Case分析

1. 分類問題

----哪些樣本分錯了

----哪部分特征使得它分錯了

----這些bad cases有沒有共性?

-----是否還有沒有挖掘出的特征

2. 回歸問題

-----哪些樣本預測結(jié)果差距大,為什么

------優(yōu)化4之模型融合

1. 集體智慧

Bagging

隨機森林

2. 一萬小時定律

Adaboost(小學-初中-高中-大學-(碩士)-(博士))

梯度提升樹(GBT)


Bagging

1. 模型很多時候效果不好的原因是因為過擬合

2. 如何緩解?

--每次少給一點樣本集

---找不同的模型來做,然后綜合一下答案(貨比三家)

--算法:

1. 不用全部的數(shù)據(jù)集,每次有放回的抽取一個子集訓練模型【可以降低噪聲點對結(jié)果的影響】

2. 分類:用這些模型結(jié)果做一個vote

3. 回歸:對這些模型的結(jié)果取平均


--用不同的算法:

用這些結(jié)果做vote或求平均

----AdaBoost

1.考得不好的原因?

---不夠努力:重復迭代和訓練

---時間分配要合理,要多做之前練習錯的題:每次分配給分錯的樣本更高的權(quán)重

--不聰明,但是腳踏實地:最簡單的分類器的疊加

Adaboost算法流程
AdaBoost模型權(quán)重相加

有可能會過擬合

解決:學習的時候不學所有的樣本集和特征。減少樹的深度

對錯誤值和噪聲敏感

回歸問題:GDT(梯度提升樹)

梯度提升樹(模型融合)

第二張圖中所有綠色的點是紅色的點對于粗糙的模型作差(殘差)得到

不斷地重復上述過程

提升得到
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容