Sklearn 快速入門

學習資料:大家可以去莫煩的學習網站學到更多的知識。

本文結構:

  • Sklearn 簡介
  • 選擇模型流程
  • 應用模型

Sklearn 簡介

Scikit learn 也簡稱 sklearn, 是機器學習領域當中最知名的 python 模塊之一.

Sklearn 包含了很多種機器學習的方式:

  • Classification 分類
  • Regression 回歸
  • Clustering 非監(jiān)督分類
  • Dimensionality reduction 數據降維
  • Model Selection 模型選擇
  • Preprocessing 數據預處理

選擇模型流程

學習 Sklearn 時,不要直接去用,先了解一下都有什么模型方法,然后選擇適當的方法,來達到你的目標。

Sklearn 官網提供了一個流程圖,藍色圓圈內是判斷條件,綠色方框內是可以選擇的算法:

從 START 開始,首先看數據的樣本是否 >50,小于則需要收集更多的數據。

由圖中,可以看到算法有四類,分類,回歸,聚類,降維。

其中 分類和回歸是監(jiān)督式學習,即每個數據對應一個 label。
聚類 是非監(jiān)督式學習,即沒有 label。
另外一類是 降維,當數據集有很多很多屬性的時候,可以通過 降維 算法把屬性歸納起來。例如 20 個屬性只變成 2 個,注意,這不是挑出 2 個,而是壓縮成為 2 個,它們集合了 20 個屬性的所有特征,相當于把重要的信息提取的更好,不重要的信息就不要了。

然后看問題屬于哪一類問題,是分類還是回歸,還是聚類,就選擇相應的算法。
當然還要考慮數據的大小,例如 100K 是一個閾值。

可以發(fā)現有些方法是既可以作為分類,也可以作為回歸,例如 SGD


應用模型

Sklearn 把所有機器學習的模式整合統一起來了,學會了一個模式就可以通吃其他不同類型的學習模式。

例如,分類器,

Sklearn 本身就有很多數據庫,可以用來練習。
我們用其中 Iris 的數據為例,這種花有四個屬性,花瓣的長寬,莖的長寬,根據這些屬性把花分為三類。

我們要用 分類器 去把四種類型的花分開。

今天用 KNN classifier,就是選擇幾個臨近點,綜合它們做個平均來作為預測值。

使用模型的步驟:

  1. 導入模塊
  2. 創(chuàng)建數據
  3. 建立模型-訓練-預測

<h4 id="pkg">1. 導入模塊</h4>

from __future__ import print_function
from sklearn import datasets
from sklearn.cross_validation import train_test_split
from sklearn.neighbors import KNeighborsClassifier

<h4 id="data">2. 創(chuàng)建數據</h4>

加載 iris 的數據,把屬性存在 X,類別標簽存在 y

iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target

觀察一下數據集,X 有四個屬性,y 有 0,1,2 三類:

print(iris_X[:2, :])
print(iris_y)

"""
[[ 5.1  3.5  1.4  0.2]
 [ 4.9  3.   1.4  0.2]]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
 """

把數據集分為訓練集和測試集,其中 test_size=0.3,即測試集占總數據的 30%:

X_train, X_test, y_train, y_test = train_test_split(
    iris_X, iris_y, test_size=0.3)

可以看到分開后的數據集,順序也被打亂,這樣更有利于學習模型:

print(y_train)

"""
[2 1 0 1 0 0 1 1 1 1 0 0 1 2 1 1 1 0 2 2 1 1 1 1 0 2 2 0 2 2 2 2 2 0 1 2 2
 2 2 2 2 0 1 2 2 1 1 1 0 0 1 2 0 1 0 1 0 1 2 2 0 1 2 2 2 1 1 1 1 2 2 2 1 0
 1 1 0 0 0 2 0 1 0 0 1 2 0 2 2 0 0 2 2 2 1 2 0 0 2 1 2 0 0 1 2]
 """

<h4 id="model">3. 定義模型-訓練模型-預測</h4>

定義模塊方式 KNeighborsClassifier(),
fit 來訓練 training data,這一步就完成了訓練的所有步驟,
后面的 knn 就已經是訓練好的模型,可以直接用來 predict 測試集的數據,
對比用模型預測的值與真實的值,可以看到大概模擬出了數據,但是有誤差,是不會完完全全預測正確的。

knn = KNeighborsClassifier()
knn.fit(X_train, y_train)
print(knn.predict(X_test))
print(y_test)

"""
[2 0 0 1 2 2 0 0 0 1 2 2 1 1 2 1 2 1 0 0 0 2 1 2 0 0 0 0 1 0 2 0 0 2 1 0 1
 0 0 1 0 1 2 0 1]
[2 0 0 1 2 1 0 0 0 1 2 2 1 1 2 1 2 1 0 0 0 2 1 2 0 0 0 0 1 0 2 0 0 2 1 0 1
 0 0 1 0 1 2 0 1]
 """

歷史技術博文鏈接匯總

我是 不會停的蝸牛 Alice
85后全職主婦
喜歡人工智能,行動派
創(chuàng)造力,思考力,學習力提升修煉進行中
歡迎您的喜歡,關注和評論!

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容