轉(zhuǎn)自july算法班:
模型的狀態(tài)分為過擬合和欠擬合
過擬合(overfitting/high variance) 高波動性
欠擬合(underfitting/high bias) ?高偏差


比如給出一些樣本點,需要在上面畫畫,第一張圖毫無規(guī)律可尋,稱為欠擬合。而中間圖找出了一些樣本點之間的關(guān)聯(lián)性。最后一張圖根據(jù)樣本點畫出了一只貓。我們稱為過擬合??梢赃@樣想,如果這些點只能畫出貓是不是局限了我們想象力呢?難道不能畫出一只仰頭的兔子來嗎?
所以我們要尋找的規(guī)律不是一種特殊的規(guī)律,而是一種普適的一般性的規(guī)律,它既對已知數(shù)據(jù)有較好的擬合對未知數(shù)據(jù)也沒有較大的偏差性。
---模型狀態(tài)驗證工具:學習曲線

---不同模型狀態(tài)的處理
---過擬合,找更多的數(shù)據(jù)來學習
---增大正則化系數(shù)
---減少特征個數(shù)(不太推薦)
注意:不要以為降維就可以解決過擬合的問題
----2. 欠擬合
-----找到更多特征
-----減小正則化系數(shù)
---線性模型的權(quán)重分析
----1.線性或者線性kernel的model
---Linear Regression
---Logistic Regression
---Linear SVM
------2. 對權(quán)重絕對值高/低的特征
---做更細化的工作
----特征組合
-----優(yōu)化3之Bad-Case分析
1. 分類問題
----哪些樣本分錯了
----哪部分特征使得它分錯了
----這些bad cases有沒有共性?
-----是否還有沒有挖掘出的特征
2. 回歸問題
-----哪些樣本預測結(jié)果差距大,為什么
------優(yōu)化4之模型融合
1. 集體智慧
Bagging
隨機森林
2. 一萬小時定律
Adaboost(小學-初中-高中-大學-(碩士)-(博士))
梯度提升樹(GBT)
Bagging
1. 模型很多時候效果不好的原因是因為過擬合
2. 如何緩解?
--每次少給一點樣本集
---找不同的模型來做,然后綜合一下答案(貨比三家)
--算法:
1. 不用全部的數(shù)據(jù)集,每次有放回的抽取一個子集訓練模型【可以降低噪聲點對結(jié)果的影響】
2. 分類:用這些模型結(jié)果做一個vote
3. 回歸:對這些模型的結(jié)果取平均
--用不同的算法:
用這些結(jié)果做vote或求平均
----AdaBoost
1.考得不好的原因?
---不夠努力:重復迭代和訓練
---時間分配要合理,要多做之前練習錯的題:每次分配給分錯的樣本更高的權(quán)重
--不聰明,但是腳踏實地:最簡單的分類器的疊加


有可能會過擬合
解決:學習的時候不學所有的樣本集和特征。減少樹的深度
對錯誤值和噪聲敏感
回歸問題:GDT(梯度提升樹)

第二張圖中所有綠色的點是紅色的點對于粗糙的模型作差(殘差)得到
不斷地重復上述過程
