task 04 集成學(xué)習(xí)

對模型超參的調(diào)整

  • 類似w,使用最小二乘法或者梯度下降法等最優(yōu)化算法優(yōu)化出來的數(shù)我們稱為參數(shù),
  • 類似于 ?? 一樣,我們無法使用最小二乘法或者梯度下降法等最優(yōu)化算法優(yōu)化出來的數(shù)我們稱為超參數(shù)

這里介紹了兩種調(diào)優(yōu)的方法:

  • 網(wǎng)格搜索GridSearchCV()
class sklearn.model_selection.GridSearchCV(estimator, param_grid, *, scoring=None, n_jobs=None, refit=True, cv=None, verbose=0, pre_dispatch='2*n_jobs', error_score=nan, return_train_score=False)

estimator:所使用的分類器,如estimator=RandomForestClassifier(min_samples_split=100,min_samples_leaf=20,max_depth=8,max_features='sqrt',random_state=10), 并且傳入除需要確定最佳的參數(shù)之外的其他參數(shù)。每一個分類器都需要一個scoring參數(shù),或者score方法。
param_grid:值為字典或者列表,即需要最優(yōu)化的參數(shù)的取值,param_grid =param_test1,param_test1 = {'n_estimators':range(10,71,10)}。
scoring :準(zhǔn)確度評價標(biāo)準(zhǔn),默認(rèn)None,這時需要使用score函數(shù);或者如scoring='roc_auc',根據(jù)所選模型不同,評價準(zhǔn)則不同。字符串(函數(shù)名),或是可調(diào)用對象,需要其函數(shù)簽名形如:scorer(estimator, X, y);如果是None,則使用estimator的誤差估計函數(shù)。

  • 隨機搜索 RandomizedSearchCV() :
    其搜索策略如下:
    (a)對于搜索范圍是distribution的超參數(shù),根據(jù)給定的distribution隨機采樣;
    (b)對于搜索范圍是list的超參數(shù),在給定的list中等概率采樣;
    (c)對a、b兩步中得到的n_iter組采樣結(jié)果,進(jìn)行遍歷。
    (補充)如果給定的搜索范圍均為list,則不放回抽樣n_iter次。
    下圖說明了為什么有些情況下隨機搜索可能會比grid有效。


    image.png

sample 代碼

  • Pipeline可以將許多算法模型串聯(lián)起來,可以用于把多個estamitors級聯(lián)成一個estamitor,比如將特征提取、歸一化、分類組織在一起形成一個典型的機器學(xué)習(xí)問題工作流。Pipleline中最后一個之外的所有estimators都必須是變換器(transformers),最后一個estimator可以是任意類型(transformer,classifier,regresser),如果最后一個estimator是個分類器,則整個pipeline就可以作為分類器使用,如果最后一個estimator是個聚類器,則整個pipeline就可以作為聚類器使用。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容