scikit-learn里面的算法包在python做機(jī)器學(xué)習(xí)的時候經(jīng)常用到。
關(guān)于sklearn調(diào)用算法包的過程:
1.準(zhǔn)備好測試集、訓(xùn)練集
2.提取好訓(xùn)練集、測試集的特征值和因變量的值
3.把訓(xùn)練集特征值和因變量的值傳入算法中計算
4.把測試集的特征值傳入算法做預(yù)測5.計算誤差
注意:
1.特征值的格式:行裝入的是每一個特征的值,也就是說,列的個數(shù)就是特征的個數(shù),而行數(shù)就是樣本的個數(shù),也就是訓(xùn)練集的數(shù)量。
###列的個數(shù):特征的特殊
###行的個數(shù):樣本訓(xùn)練集個數(shù)
2.最好在做誤差計算的時候,先看返回的預(yù)測值所構(gòu)成的向量是行向量還是列向量3.因?yàn)?a target="_blank" rel="nofollow">Python是面向?qū)ο缶幊痰模?,sklearn的算法包也是這樣的。因此在調(diào)用的時候先指定對象。如在線性回歸的預(yù)測中,可以先執(zhí)行下面的代碼dd = sklearn.linear_model.LinearRegression()
這行代碼先指定線性回歸的對象dd,然后在執(zhí)行dd.fit()就可以進(jìn)行回歸了
4.關(guān)于選擇最佳參數(shù)(模型):ridgeRegression = sklearn.linear_model.RidgeCV(alphas=[0.01, 0.05, 0.1, 0.5, 1.0, 10.0])#在嶺回歸中,通過調(diào)用RidgeCV來直接交叉驗(yàn)證要測試的幾個懲罰因子#每個線性回歸模型都有相應(yīng)的VC方法來交叉驗(yàn)證參數(shù)。ridgeRegression.alpha_#這行代碼是可以查看上行代碼帶選取的最佳的懲罰因子