集成學(xué)習(xí):核心思想就是使用弱學(xué)習(xí)器進(jìn)行加權(quán)求和,從而產(chǎn)生性能較為強大的強學(xué)習(xí)器
主要分為兩種:
1.基于偏差方差分解和有放回抽樣與集成進(jìn)行弱機器學(xué)習(xí)的算法
2.基于梯度下降和提升,梯度提升決策樹
獲得弱學(xué)習(xí)器:
1.bagging
通過有放回抽樣構(gòu)造出多個數(shù)據(jù)集并分別進(jìn)行弱學(xué)習(xí)器訓(xùn)練再進(jìn)行集成,以期降低模型的期望泛化誤差偏差方差分解中的方差部分,從而增強模型的泛化能力
如果能使用同樣大小的同分布數(shù)據(jù)集分別進(jìn)行模擬的訓(xùn)練,然后使用其平均的預(yù)測結(jié)果作為模型的最終預(yù)測結(jié)果,那么就能有效的降低模型的方差,從而降低模型的期望泛化誤差
2.boosting
理論基礎(chǔ)就是梯度下降
以分階段的形式順序迭代地學(xué)習(xí)每個弱學(xué)習(xí)器,而每個弱學(xué)習(xí)器都是在對前序模型的不足之處進(jìn)行改進(jìn),從而得到強學(xué)習(xí)器
#弱學(xué)習(xí)器相加的過程其實就是損失函數(shù)進(jìn)行梯度下降的過程
梯度下降的基本步驟:
1.確定損失函數(shù)的梯度
2.步長乘以梯度,得到當(dāng)前位置下降的距離
3.判斷下降的距離是否小于之前確定的精度值
4.如果不小于精度值,就進(jìn)行迭代
而我們?nèi)绻懒藫p失函數(shù)的梯度表達(dá)式,就可以在數(shù)據(jù)上計算相應(yīng)的值
可以訓(xùn)練模型,使其預(yù)測和負(fù)梯度更相關(guān)
#就是基于預(yù)測和這些殘差的最小平方差糾正預(yù)測