1、前言 ????xgboost是在gbdt基礎(chǔ)上進(jìn)行了升級,所以xgboost也是通過每次擬合上次的殘差(上次實(shí)際值與目標(biāo)值之差),從而每次生成一棵樹(CART回歸樹),最...
1、前言 ????xgboost是在gbdt基礎(chǔ)上進(jìn)行了升級,所以xgboost也是通過每次擬合上次的殘差(上次實(shí)際值與目標(biāo)值之差),從而每次生成一棵樹(CART回歸樹),最...
1、前言 ????對于相同的數(shù)據(jù)及問題,可以有不同的算法模型解決,那么如何評價(jià)不通算法的優(yōu)劣,以及最終應(yīng)該選擇哪一種?針對這些問題,本文將做簡單介紹。 2、常見術(shù)語 過擬合:...
1、前言 ??對于分類任務(wù),經(jīng)常會遇到類別不平衡問題(不通類別訓(xùn)練樣本數(shù)目差距較大),本文將對該問題給出常見的解決方法。 2、常用解決方法 2.1 欠采樣(下采樣) ??欠采...
1、前言 ????統(tǒng)計(jì)相關(guān)問題系列第二篇,上一篇點(diǎn)這里 2、常見名詞 極差(range):一組數(shù)據(jù)中最大值與最小值之差。 四分位差(IQR):一組數(shù)據(jù)中第75百分位數(shù)與第25...
1、前言 ????由于k近鄰算法相對比較簡單,故本文不會展開介紹該算法,只是對一些知識點(diǎn)進(jìn)行整理。 2、相關(guān)知識點(diǎn) 2.1 最近鄰算法 ????當(dāng)k近鄰算法中k取1時,則為最...
1、信息熵(Ent(D)) ????用來度量一組樣本集合的純度(信息熵越小,純度越高)。假設(shè)在集合D中第k類的占比為,則D的信息熵為: 2、信息增益(Gain(D,a)) ?...
1、前言 ????決策樹是目前機(jī)器學(xué)習(xí)算法中使用較多的一種算法,即使在各大競賽中(kaggle、天池等),使用較多的集成學(xué)習(xí)(GBDT、XGBoost、LightGBM、ca...