Scikit Learn: 在python中機(jī)器學(xué)習(xí)
Warning
警告:有些沒(méi)能理解的句子,我以自己的理解意譯。
翻譯自:Scikit Learn:Machine Learning in Python
作者: Fabian Pedregosa, Gael Varoquaux
先決條件
Numpy, Scipy
IPython
matplotlib
scikit-learn
目錄
載入示例數(shù)據(jù)一個(gè)改變數(shù)據(jù)集大小的示例:數(shù)碼數(shù)據(jù)集(digits datasets)
學(xué)習(xí)和預(yù)測(cè)
分類K最近鄰(KNN)分類器訓(xùn)練集和測(cè)試集
分類支持向量機(jī)(SVMs)線性支持向量機(jī)
使用核
聚類:將觀測(cè)值聚合k均值聚類應(yīng)用到圖像壓縮
用主成分分析降維
將一切放在一起:人臉識(shí)別
線性模型:從回歸到稀疏稀疏模型同一問(wèn)題的不同算法
模型選擇:選擇估計(jì)器和它們的參數(shù)格點(diǎn)搜索和交叉驗(yàn)證估計(jì)器格點(diǎn)搜索
交叉驗(yàn)證估計(jì)器
警告:在0.9版中(2011年9月發(fā)行),scikit-learn的導(dǎo)入路徑從scikits.learn更改為sklearn
載入示例數(shù)據(jù)
首先我們載入一些用來(lái)玩耍的數(shù)據(jù)。我們將使用的數(shù)據(jù)是非常簡(jiǎn)單的著名的花朵數(shù)據(jù)——安德森鳶尾花卉數(shù)據(jù)集。
我們有一百五十個(gè)鳶尾花的一些尺寸的觀測(cè)值:萼片長(zhǎng)度、寬度,花瓣長(zhǎng)度和寬度。還有它們的亞屬:山鳶尾(Iris setosa)、變色鳶尾(Iris versicolor)和維吉尼亞鳶尾(Iris virginica)
向python對(duì)象載入數(shù)據(jù):
In [1]: from sklearn import datasets
In [2]: iris = datasets.load_iris()
數(shù)據(jù)存儲(chǔ)在.data項(xiàng)中,是一個(gè)(n_samples, n_features)數(shù)組。
In [3]: iris.data.shapeOut[3]: (150, 4)
每個(gè)觀察對(duì)象的種類存貯在數(shù)據(jù)集的.target屬性中。這是一個(gè)長(zhǎng)度為n_samples的整數(shù)一維數(shù)組:
In [5]: iris.target.shapeOut[5]: (150,)
In [6]: import numpy as np
In [7]: np.unique(iris.target)
Out[7]: array([0, 1, 2])
一個(gè)改變數(shù)據(jù)集大小的示例:數(shù)碼數(shù)據(jù)集(digits datasets)
數(shù)碼數(shù)據(jù)集1
包括1797個(gè)圖像,每一個(gè)都是個(gè)代表手寫數(shù)字的8x8像素圖像
In [8]: digits = datasets.load_digits()
In [9]: digits.images.shape
Out[9]: (1797, 8, 8)
In [10]: import pylab as pl
In [11]: pl.imshow(digits.images[0], cmap=pl.cm.gray_r)
Out[11]: <matplotlib.image.AxesImage at 0x3285b90>
In [13]: pl.show()
為了在scikit中使用這個(gè)數(shù)據(jù)集,我們把每個(gè)8x8圖像轉(zhuǎn)換成長(zhǎng)度為64的矢量。(譯者注:或者直接用digits.data)
In [12]: data = digits.images.reshape((digits.images.shape[0], -1))
學(xué)習(xí)和預(yù)測(cè)
現(xiàn)在我們已經(jīng)獲得一些數(shù)據(jù),我們想要從中學(xué)習(xí)和預(yù)測(cè)一個(gè)新的數(shù)據(jù)。在scikit-learn中,我們通過(guò)創(chuàng)建一個(gè)估計(jì)器(estimator)從已經(jīng)存在的數(shù)據(jù)學(xué)習(xí),并且調(diào)用它的fit(X,Y)方法。
In [14]: from sklearn import svm
In [15]: clf = svm.LinearSVC()
In [16]: clf.fit(iris.data, iris.target) # learn from the data
Out[16]: LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True, intercept_scaling=1, loss='l2', multi_class='ovr', penalty='l2', tol=0.0001, verbose=0)
一旦我們已經(jīng)從數(shù)據(jù)學(xué)習(xí),我們可以使用我們的模型來(lái)預(yù)測(cè)未觀測(cè)數(shù)據(jù)最可能的結(jié)果。
In [17]: clf.predict([[ 5.0, 3.6, 1.3, 0.25]])Out[17]: array([0], dtype=int32)
注意:我們可以通過(guò)它以下劃線結(jié)束的屬性存取模型的參數(shù):
In [18]: clf.coef_
Out[18]: array([[ 0.18424352, 0.45122644, -0.8079467 , -0.45071302], [ 0.05190619, -0.89423619, 0.40519245, -0.93781587], [-0.85087844, -0.98667529, 1.38088883, 1.86538111]])
分類
K最近鄰(KNN)分類器
最簡(jiǎn)單的可能的分類器是最近鄰:給定一個(gè)新的觀測(cè)值,將n維空間中最靠近它的訓(xùn)練樣本標(biāo)簽給它。其中n是每個(gè)樣本中特性(features)數(shù)。
k最近鄰2
分類器內(nèi)部使用基于球樹(ball tree)3
來(lái)代表它訓(xùn)練的樣本。
KNN分類示例:
In [19]: # Create and fit a nearest-neighbor classifier
In [20]: from sklearn import neighbors
In [21]: knn = neighbors.KNeighborsClassifier()
In [22]: knn.fit(iris.data, iris.target)
Out[22]: KNeighborsClassifier(algorithm='auto', leaf_size=30, n_neighbors=5, p=2, warn_on_equidistant=True, weights='uniform')
In [23]: knn.predict([[0.1, 0.2, 0.3, 0.4]])Out[23]: array([0])
訓(xùn)練集和測(cè)試集
當(dāng)驗(yàn)證學(xué)習(xí)算法時(shí),不要用一個(gè)用來(lái)擬合估計(jì)器的數(shù)據(jù)來(lái)驗(yàn)證估計(jì)器的預(yù)測(cè)非常重要。確實(shí),通過(guò)kNN估計(jì)器,我們將總是獲得關(guān)于訓(xùn)練集完美的預(yù)測(cè)。
In [24]: perm = np.random.permutation(iris.target.size)
In [25]: iris.data = iris.data[perm]
In [26]: iris.target = iris.target[perm]
In [27]: knn.fit(iris.data[:100], iris.target[:100])
Out[27]: KNeighborsClassifier(algorithm='auto', leaf_size=30, n_neighbors=5, p=2, warn_on_equidistant=True, weights='uniform')
In [28]: knn.score(iris.data[100:], iris.target[100:]) /usr/lib/python2.7/site-packages/sklearn/neighbors/classification.py:129: NeighborsWarning: kneighbors: neighbor k+1 and neighbor k have the same distance: results will be dependent on data order. neigh_dist, neigh_ind = self.kneighbors(X)
Out[28]: 0.95999999999999996
Bonus的問(wèn)題:為什么我們使用隨機(jī)的排列?
分類支持向量機(jī)(SVMs)
線性支持向量機(jī)
SVMs4
嘗試構(gòu)建一個(gè)兩個(gè)類別的最大間隔超平面。它選擇輸入的子集,調(diào)用支持向量即離分離的超平面最近的樣本點(diǎn)。
In [60]: from sklearn import svm
In [61]: svc = svm.SVC(kernel='linear')
In [62]: svc.fit(iris.data, iris.target)
Out[62]: SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0, kernel='linear', probability=False, shrinking=True, tol=0.001, verbose=False)
scikit-learn中有好幾種支持向量機(jī)實(shí)現(xiàn)。最普遍使用的是svm.SVC,svm.NuSVC和svm.LinearSVC;“SVC”代表支持向量分類器(Support Vector Classifier)(也存在回歸SVMs,在scikit-learn中叫作“SVR”)。
練習(xí)
訓(xùn)練一個(gè)數(shù)字?jǐn)?shù)據(jù)集的svm.SVC。省略最后10%并且檢驗(yàn)觀測(cè)值的預(yù)測(cè)表現(xiàn)。
使用核
類別不總是可以用超平面分離,所以人們指望有些可能是多項(xiàng)式或指數(shù)實(shí)例的非線性決策函數(shù):
線性核
svc = svm.SVC(kernel=’linear’)
多項(xiàng)式核
svc = svm.SVC(kernel=’poly’, … degree=3) # degree: polynomial degree
RBF核(徑向基函數(shù))5
svc = svm.SVC(kernel=’rbf’) # gamma: inverse of size of # radial kernel
練習(xí)
以上提到的哪些核對(duì)數(shù)字?jǐn)?shù)據(jù)集有更好的預(yù)測(cè)性能?(譯者:前兩個(gè))
聚類:將觀測(cè)值聚合
給定鳶尾花數(shù)據(jù)集,如果我們知道這有三種鳶尾花,但是無(wú)法得到它們的標(biāo)簽,我們可以嘗試非監(jiān)督學(xué)習(xí):我們可以通過(guò)某些標(biāo)準(zhǔn)聚類觀測(cè)值到幾個(gè)組別里。
k均值聚類
最簡(jiǎn)答的聚類算法是k均值算法。這將一個(gè)數(shù)據(jù)分成k個(gè)集群,以最小化觀測(cè)值(n維空間中)到聚類中心的均值來(lái)分配每個(gè)觀測(cè)點(diǎn)到集群;然后均值重新被計(jì)算。這個(gè)操作遞歸運(yùn)行直到聚類收斂,在max_iter回合內(nèi)到最大值。6
(一個(gè)替代的k均值算法實(shí)現(xiàn)在scipy中的cluster包中。這個(gè)scikit-learn實(shí)現(xiàn)與之不同,通過(guò)提供對(duì)象API和幾個(gè)額外的特性,包括智能初始化。)
In [82]: from sklearn import cluster, datasets
In [83]: iris = datasets.load_iris()
In [84]: k_means = cluster.KMeans(k=3)
In [85]: k_means.fit(iris.data)
Out[85]: KMeans(copy_x=True, init='k-means++', k=3, max_iter=300, n_init=10, n_jobs=1, precompute_distances=True, random_state=<mtrand.RandomState object at 0x7f4d860642d0>, tol=0.0001, verbose=0)
In [86]: print k_means.labels_[::10][1 1 1 1 1 2 2 2 2 2 0 0 0 0 0]In [87]: print iris.target[::10][0 0 0 0 0 1 1 1 1 1 2 2 2 2 2]
應(yīng)用到圖像壓縮
譯者注:Lena是經(jīng)典的圖像處理實(shí)例圖像, 8位灰度色深, 尺寸512 x 512
聚類可以被看作是一種從信息中選擇一小部分觀測(cè)值。例如,這個(gè)可以被用來(lái)海報(bào)化一個(gè)圖像(將連續(xù)變化的色調(diào)轉(zhuǎn)換成更少幾個(gè)色調(diào)):
In [95]: from scipy import misc
In [96]: lena = misc.lena().astype(np.float32)
In [97]: X = lena.reshape((-1, 1)) # We need an (n_sample, n_feature) array
In [98]: k_means = cluster.KMeans(5)
In [99]: k_means.fit(X)
Out[99]: KMeans(copy_x=True, init='k-means++', k=5, max_iter=300, n_init=10, n_jobs=1, precompute_distances=True, random_state=<mtrand.RandomState object at 0x7f4d860642d0>, tol=0.0001, verbose=0)
In [100]: values = k_means.cluster_centers_.squeeze()
In [101]: labels = k_means.labels_
In [102]: lena_compressed = np.choose(labels, values)
In [103]: lena_compressed.shape = lena.shape
譯者注:想看效果?
In [31]: import matplotlib.pyplot as plt
In [32]: plt.gray()
In [33]: plt.imshow(lena_compressed)
Out[33]: <matplotlib.image.AxesImage at 0x4b2c510>
In [34]: plt.show()
原圖類似。
![Image]
用主成分分析降維
以上根據(jù)觀測(cè)值標(biāo)記的點(diǎn)云在一個(gè)方向非常平坦,所以一個(gè)特性幾乎可以用其它兩個(gè)確切地計(jì)算。PCA發(fā)現(xiàn)哪個(gè)方向的數(shù)據(jù)不是平的并且它可以通過(guò)在一個(gè)子空間投影來(lái)降維。
警告:PCA將在模塊decomposition或pca中,這取決于你scikit-learn的版本。
In [75]: from sklearn import decomposition
In [76]: pca = decomposition.PCA(n_components=2)
In [77]: pca.fit(iris.data)Out[77]: PCA(copy=True, n_components=2, whiten=False)
In [78]: X = pca.transform(iris.data)
現(xiàn)在我們可以可視化(降維過(guò)的)鳶尾花數(shù)據(jù)集:
In [79]: import pylab as pl
In [80]: pl.scatter(X[:, 0], X[:, 1], c=iris.target)
Out[80]: <matplotlib.collections.PathCollection at 0x4104310>
PCA不僅在可視化高維數(shù)據(jù)集時(shí)非常有用。它可以用來(lái)作為幫助加速對(duì)高維數(shù)據(jù)不那么有效率的監(jiān)督方法7
的預(yù)處理步驟。
將一切放在一起:人臉識(shí)別
一個(gè)實(shí)例使用主成分分析來(lái)降維和支持向量機(jī)來(lái)分類進(jìn)行人臉識(shí)別。
譯者注:讓程序自動(dòng)下載(確保聯(lián)網(wǎng),文件較大,要等待很久)或者手動(dòng)下載數(shù)據(jù)并放到./scikit_learn_data/lfw_home/下。
"""Stripped-down version of the face recognition example by Olivier Griselhttp://scikit-learn.org/dev/auto_examples/applications/face_recognition.html## original shape of images: 50, 37"""import numpy as npimport pylab as plfrom sklearn import cross_val, datasets, decomposition, svm# ..# .. load data ..lfw_people = datasets.fetch_lfw_people(min_faces_per_person=70, resize=0.4)perm = np.random.permutation(lfw_people.target.size)lfw_people.data = lfw_people.data[perm]lfw_people.target = lfw_people.target[perm]faces = np.reshape(lfw_people.data, (lfw_people.target.shape[0], -1))train, test = iter(cross_val.StratifiedKFold(lfw_people.target, k=4)).next()X_train, X_test = faces[train], faces[test]y_train, y_test = lfw_people.target[train], lfw_people.target[test]# ..# .. dimension reduction ..pca = decomposition.RandomizedPCA(n_components=150, whiten=True)pca.fit(X_train)X_train_pca = pca.transform(X_train)X_test_pca = pca.transform(X_test)# ..# .. classification ..clf = svm.SVC(C=5., gamma=0.001)clf.fit(X_train_pca, y_train)# ..# .. predict on new images ..for i in range(10): print lfw_people.target_names[clf.predict(X_test_pca[i])[0]] _ = pl.imshow(X_test[i].reshape(50, 37), cmap=pl.cm.gray) _ = raw_input()
全部代碼:face.py
線性模型:從回歸到稀疏
糖尿病數(shù)據(jù)集
糖尿病數(shù)據(jù)集包含442個(gè)病人的測(cè)量而得的10項(xiàng)生理指標(biāo)(年齡,性別,體重,血壓),和一年后疾病進(jìn)展的指示:
In [104]: diabetes = datasets.load_diabetes()In [105]: diabetes_X_train = diabetes.data[:-20]In [106]: diabetes_X_test = diabetes.data[-20:]In [107]: diabetes_y_train = diabetes.target[:-20]In [108]: diabetes_y_test = diabetes.target[-20:]
這個(gè)手頭的任務(wù)是用來(lái)從生理指標(biāo)預(yù)測(cè)疾病。
稀疏模型
為了改善問(wèn)題的條件(無(wú)信息變量,減少維度的不利影響,作為一個(gè)特性(feature)選擇的預(yù)處理,等等),我們只關(guān)注有信息的特性將沒(méi)有信息的特性設(shè)置為0.這個(gè)罰則函數(shù)法8
,叫作套索(Lasso)9
,可以將一些系數(shù)設(shè)置為0.這些方法叫作稀疏方法(sparse method),稀疏化可以被視作奧卡姆剃刀:相對(duì)于復(fù)雜模型更傾向于簡(jiǎn)單的。
In [109]: from sklearn import linear_modelIn [110]: regr = linear_model.Lasso(alpha=.3)In [111]: regr.fit(diabetes_X_train, diabetes_y_train)Out[111]: Lasso(alpha=0.3, copy_X=True, fit_intercept=True, max_iter=1000, normalize=False, positive=False, precompute='auto', tol=0.0001, warm_start=False)In [112]: regr.coef_ # very sparse coefficientsOut[112]: array([ 0. , -0. , 497.34075682, 199.17441034, -0. , -0. , -118.89291545, 0. , 430.9379595 , 0. ])In [113]: regr.score(diabetes_X_test, diabetes_y_test) Out[113]: 0.55108354530029791
這個(gè)分?jǐn)?shù)和線性回歸(最小二乘法)非常相似:
In [114]: lin = linear_model.LinearRegression()In [115]: lin.fit(diabetes_X_train, diabetes_y_train) Out[115]: LinearRegression(copy_X=True, fit_intercept=True, normalize=False)In [116]: lin.score(diabetes_X_test, diabetes_y_test) Out[116]: 0.58507530226905713
同一問(wèn)題的不同算法
同一數(shù)學(xué)問(wèn)題可以用不同算法解決。例如,sklearn中的Lasso對(duì)象使用坐標(biāo)下降(coordinate descent)方法10
解決套索回歸,這在大數(shù)據(jù)集時(shí)非常有效率。然而,sklearn也提供了LassoLARS對(duì)象,使用LARS這種在解決權(quán)重向量估計(jì)非常稀疏,觀測(cè)值很少的問(wèn)題很有效率的方法。
模型選擇:選擇估計(jì)器和它們的參數(shù)
格點(diǎn)搜索和交叉驗(yàn)證估計(jì)器
格點(diǎn)搜索
scikit-learn提供了一個(gè)對(duì)象,該對(duì)象給定數(shù)據(jù),在擬合一個(gè)參數(shù)網(wǎng)格的估計(jì)器時(shí)計(jì)算分?jǐn)?shù),并且選擇參數(shù)最大化交叉驗(yàn)證分?jǐn)?shù)。這個(gè)對(duì)象在構(gòu)建時(shí)采用一個(gè)估計(jì)器并且暴露一個(gè)估計(jì)器API:
In [117]: from sklearn import svm, grid_searchIn [118]: gammas = np.logspace(-6, -1, 10)In [119]: svc = svm.SVC()In [120]: clf = grid_search.GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas),n_jobs=-1)In [121]: clf.fit(digits.data[:1000], digits.target[:1000]) Out[121]: GridSearchCV(cv=None, estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0, degree=3, gamma=0.0, kernel='rbf', probability=False, shrinking=True, tol=0.001, verbose=False), fit_params={}, iid=True, loss_func=None, n_jobs=-1, param_grid={'gamma': array([ 1.00000e-06, 3.59381e-06, 1.29155e-05, 4.64159e-05, 1.66810e-04, 5.99484e-04, 2.15443e-03, 7.74264e-03, 2.78256e-02, 1.00000e-01])}, pre_dispatch='2*n_jobs', refit=True, score_func=None, verbose=0)In [122]: clf.best_score/usr/lib/python2.7/site-packages/sklearn/utils/init.py:79: DeprecationWarning: Function best_score is deprecated; GridSearchCV.best_score is deprecated and will be removed in version 0.12. Please use GridSearchCV.best_score_ instead. warnings.warn(msg, category=DeprecationWarning)Out[122]: 0.98600097103091122In [123]: clf.best_estimator.gamma/usr/lib/python2.7/site-packages/sklearn/utils/init.py:79: DeprecationWarning: Function best_estimator is deprecated; GridSearchCV.best_estimator is deprecated and will be removed in version 0.12. Please use GridSearchCV.best_estimator_ instead. warnings.warn(msg, category=DeprecationWarning)Out[123]: 0.0021544346900318843
默認(rèn)GridSearchCV使用三次(3-fold)交叉驗(yàn)證。然而,如果它探測(cè)到一個(gè)分類器被傳遞,而不是一個(gè)回歸量,它使用分層的3次。
交叉驗(yàn)證估計(jì)器
交叉驗(yàn)證在一個(gè)algorithm by algorithm基礎(chǔ)上可以更有效地設(shè)定參數(shù)。這就是為何,對(duì)給定的估計(jì)器,scikit-learn使用“CV”估計(jì)器,通過(guò)交叉驗(yàn)證自動(dòng)設(shè)定參數(shù)。
In [125]: from sklearn import linear_model, datasetsIn [126]: lasso = linear_model.LassoCV()In [127]: diabetes = datasets.load_diabetes()In [128]: X_diabetes = diabetes.dataIn [129]: y_diabetes = diabetes.targetIn [130]: lasso.fit(X_diabetes, y_diabetes)Out[130]: LassoCV(alphas=array([ 2.14804, 2.00327, ..., 0.0023 , 0.00215]), copy_X=True, cv=None, eps=0.001, fit_intercept=True, max_iter=1000, n_alphas=100, normalize=False, precompute='auto', tol=0.0001, verbose=False)In [131]: # The estimator chose automatically its lambda:In [132]: lasso.alpha Out[132]: 0.013180196198701137
這些估計(jì)器是相似的,以‘CV’為它們名字的后綴。