為什么要用? 習(xí)慣于自己實現(xiàn)業(yè)務(wù)邏輯的每一步,以至于沒有意識去尋找框架本身自有的數(shù)據(jù)預(yù)處理方法,Pytorch的Dataset 和 DataLo...
序 boosting是集成學(xué)習(xí)中的一個大家族,本次記錄boosting的相關(guān)概念以及與bagging的區(qū)別。 boosting思想 Boosti...
序 集成學(xué)習(xí)模型的一大特點是可以輸出特征重要性,特征重要性能夠在一定程度上輔助我們對特征進行篩選,從而使得模型的魯棒性更好。 隨機森林中進行特征...
序 RF中有相應(yīng)的缺失值處理方法,本次記錄其兩種缺失值處理技巧 暴力填補 Python中的na.roughfix包提供簡單的缺失值填補策略:對于...
序 集成學(xué)習(xí)大類中常見的有兩個子類:Bagging和Boosting。本次記錄一下Bagging以及其代表模型RandomForest。 Bag...
序 面試過程中經(jīng)常會被問到關(guān)于方差和偏差的概念以及比對。 偏差 偏差度量了學(xué)習(xí)算法的期望預(yù)測值與真實結(jié)果間的偏離程度,也就是刻畫了模型本身的擬合...
序 本次以及后續(xù)幾次博客將陸續(xù)記錄關(guān)于集成學(xué)習(xí)模型的相關(guān)知識點。 Ensemble概述 集成學(xué)習(xí) 就是構(gòu)造若干模型并用它們的(加權(quán)預(yù)測/投票)值...
為何要剪枝 決策樹遞歸地構(gòu)建樹,直到不能繼續(xù)分裂下去為止,這樣的樹對于訓(xùn)練集可能擬合的較好,但對于訓(xùn)練集可能產(chǎn)生過擬合現(xiàn)象,原因是過多的考慮對訓(xùn)...
序 其實不同的決策樹學(xué)習(xí)算法只是它們選擇特征的依據(jù)不同,決策樹的生成過程都是一樣的(根據(jù)當(dāng)前環(huán)境對特征進行貪婪的選擇)。 ID3算法的核心是在決...