python從入門到入土教程(6)——機(jī)器學(xué)習(xí)(線性回歸與邏輯回歸)

線性回歸

# 加載數(shù)據(jù)分析常用庫(kù)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
% matplotlib inline

機(jī)器學(xué)習(xí)是一個(gè)很復(fù)雜又很廣闊的概念,可以說是包羅萬象的。從數(shù)據(jù)分析到機(jī)器學(xué)習(xí)再到深度學(xué)習(xí),這是一個(gè)不斷進(jìn)步和發(fā)展的過程。這里就通過一個(gè)很基礎(chǔ)的入門項(xiàng)目,來演練一下機(jī)器學(xué)習(xí)的過程。

機(jī)器學(xué)習(xí)的本質(zhì)其實(shí)就是通過訓(xùn)練集建立一個(gè)模型,而后可以通過這個(gè)模型實(shí)現(xiàn)對(duì)于特征的識(shí)別,得出結(jié)果標(biāo)簽,而這個(gè)模型可以是多種多樣的,簡(jiǎn)單線性回歸模型只是其中的最基礎(chǔ)最簡(jiǎn)單的一種模型。

1 建立一個(gè)數(shù)據(jù)集(如果不規(guī)整的數(shù)據(jù)集,需要按照數(shù)據(jù)分析的流程進(jìn)行一遍數(shù)據(jù)清洗,這里僅僅舉個(gè)例子,就跳過數(shù)據(jù)分析這一步了)

#首先我們先建立一個(gè)數(shù)據(jù)集,這也是之后用來訓(xùn)練和測(cè)試的數(shù)據(jù)
#導(dǎo)入包,創(chuàng)建數(shù)據(jù)集
from collections import OrderedDict
import pandas as pd
examDict={
    '學(xué)習(xí)時(shí)間':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,
            2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
    '分?jǐn)?shù)':    [10,  22,  13,  43,  20,  22,  33,  50,  62,  
              48,  55,  75,  62,  73,  81,  76,  64,  82,  90,  93]
}
examOrderDict=OrderedDict(examDict)
exam=pd.DataFrame(examOrderDict)
#看看數(shù)據(jù)集長(zhǎng)什么樣
exam.head()

2 看看適不適合用線性回歸的模型(通過畫圖)

#接下來我們先大致看一下特征和標(biāo)簽之間的關(guān)系
#然后來判斷是否適合使用簡(jiǎn)單線性回歸模型
#如果不適合,就換用其他模型
#這里是舉例,肯定可以用的
#特征是學(xué)習(xí)時(shí)間,標(biāo)簽是分?jǐn)?shù)
#用散點(diǎn)圖看一下大致情況

#從dataframe中把標(biāo)簽和特征導(dǎo)出來
exam_X = exam['學(xué)習(xí)時(shí)間']
exam_Y = exam['分?jǐn)?shù)']

#繪制散點(diǎn)圖

#導(dǎo)入包
import matplotlib.pyplot as plt
#繪制散點(diǎn)圖
plt.scatter(exam_X, exam_Y, color = 'green')
#設(shè)定X,Y軸標(biāo)簽和title
plt.ylabel('scores')
plt.xlabel('times')
plt.title('exam data')
plt.show()

3 分割數(shù)據(jù)

這里不能把這個(gè)數(shù)據(jù)集都作為訓(xùn)練數(shù)據(jù)集,那樣的話就沒有數(shù)據(jù)來測(cè)試一下我們的模型好壞了,所以需要把數(shù)據(jù)集分割一下,要用到一個(gè)函數(shù)。

#train_test_split函數(shù)可以在樣本數(shù)據(jù)集中隨機(jī)的選取測(cè)試集與訓(xùn)練集
#比例可以自己指定
#第一個(gè)參數(shù)為特征,第二個(gè)參數(shù)為標(biāo)簽
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(exam_X,
                                                    exam_Y, 
                                                    train_size = 0.8)
#這里可以簡(jiǎn)單的看一下分割后的結(jié)果
X_train.head()
X_train.shape
#可以發(fā)現(xiàn)訓(xùn)練集是16行一列的數(shù)據(jù),測(cè)試集是四行一列,符合切分比例

4 導(dǎo)入模型

#首先,改變一下數(shù)組的形狀
X_train = X_train.values.reshape(-1, 1)
X_test = X_test.values.reshape(-1, 1)
#從skl中導(dǎo)入線性回歸的模型
from sklearn.linear_model import LinearRegression
#創(chuàng)建一個(gè)模型
model = LinearRegression()
#訓(xùn)練一下
model.fit(X_train, Y_train)
#因?yàn)榫€性回歸一般方程為y = a+bx
#b為斜率,a為截距
#截距用intercept_方法獲得
#斜率用model.coef_方法獲得
a = model.intercept_
b = model.coef_
a = float(a)
b = float(b)
print('該模型的簡(jiǎn)單線性回歸方程為y = {} + {} * x'.format(a, b))

5 評(píng)估模型

我們得到的方程是這些點(diǎn)的最佳擬合曲線,那么我們首先看一下這個(gè)曲線的具體位置。

import matplotlib.pyplot as plt
#繪制散點(diǎn)圖
plt.scatter(exam_X, exam_Y, color = 'green', label = 'train data')
#設(shè)定X,Y軸標(biāo)簽和title
plt.ylabel('scores')
plt.xlabel('times')

#繪制最佳擬合曲線
Y_train_pred = model.predict(X_train)
plt.plot(X_train, Y_train_pred, color = 'black', label = 'best line')

#來個(gè)圖例
plt.legend(loc = 2)

plt.show()

但是僅僅通過擬合曲線我們是無法準(zhǔn)確判斷模型的擬合程度的,我們還需要更加具體的評(píng)判方式。

在線性回歸中,我們通過決定系數(shù) R^{2} 來判別,這個(gè)數(shù)值越接近于1,說明模型的擬合度越好

,通過測(cè)試數(shù)據(jù)來判斷一下模型的擬合程度。

model.score(X_test, Y_test)

邏輯回歸

# 加載數(shù)據(jù)分析常用庫(kù)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
% matplotlib inline

邏輯回歸其實(shí)并不是一個(gè)回歸類的模型,而是用于處理分類問題的。即結(jié)果的標(biāo)簽是一個(gè)二分類的問題。舉個(gè)例子吧,頁(yè)面上彈出一個(gè)廣告,你只有點(diǎn)進(jìn)去看或者不看這兩種結(jié)果,就像每次考試,只有通過和未通過兩種結(jié)果,空難,只有幸存和非幸存兩種結(jié)果,我們一般用0和1來把這些結(jié)果分為兩類。邏輯回歸就是通過一些特征來預(yù)測(cè)其標(biāo)簽是0還是1,評(píng)估模型算法的正確率的方法就是用預(yù)測(cè)正確的測(cè)試數(shù)目除以總的測(cè)試數(shù)目。下面就通過一個(gè)簡(jiǎn)單的案例來展示一下機(jī)器學(xué)習(xí)的入門。
1創(chuàng)建數(shù)據(jù)集

因?yàn)橹皇且粋€(gè)小案例,所以就僅僅簡(jiǎn)單的創(chuàng)建了一個(gè)微小的數(shù)據(jù)集進(jìn)行演示

#導(dǎo)入包
from collections import OrderedDict
import pandas as pd

#創(chuàng)見數(shù)據(jù)集
examDict={
    '學(xué)習(xí)時(shí)間':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,
            2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
    '考試結(jié)果':    [0,  0,  0,  0,  0,  0,  0,  0,  1,  
              0,  0,  1,  1,  1,  1,  1,  1,  1,  1,  1]
}
examOrderDict=OrderedDict(examDict)

exam=pd.DataFrame(examOrderDict)

exam.head()

繼續(xù)看看數(shù)據(jù)長(zhǎng)啥樣,是不是二分類數(shù)據(jù),適不適合用邏輯回歸。從圖中可以看出,顯然適合用邏輯回歸分類

exam_X = exam['學(xué)習(xí)時(shí)間']
exam_Y = exam['考試結(jié)果']
#導(dǎo)入包
import matplotlib.pyplot as plt
#繪制散點(diǎn)圖
plt.scatter(exam_X, exam_Y, color = 'green')
#設(shè)定X,Y軸標(biāo)簽和title
plt.ylabel('scores')
plt.xlabel('times')
plt.title('exam data')
plt.show()

2 拆分

我們把這樣的一個(gè)數(shù)據(jù)集分別拆分為測(cè)試集和訓(xùn)練集,用以接下來的訓(xùn)練和測(cè)試。

#導(dǎo)入包
from sklearn.cross_validation import train_test_split

#把數(shù)據(jù)分類
X_train, X_test, Y_train, Y_test = train_test_split(exam_X,
                                                    exam_Y, 
                                                    train_size = 0.8)
#因?yàn)樘卣髦挥幸粋€(gè),所以要改變一下數(shù)據(jù)形狀
X_train = X_train.values.reshape(-1, 1)
X_test = X_test.values.reshape(-1, 1)
#導(dǎo)入
from sklearn.linear_model import LogisticRegression
#創(chuàng)建模型
model = LogisticRegression()
#訓(xùn)練
y_score = model.fit(X_train, Y_train).decision_function(X_test)

from sklearn.metrics import roc_curve, auc
fpr,tpr,threshold = roc_curve(Y_test, y_score)

roc_auc = auc(fpr,tpr)
plt.figure()
lw = 2
plt.figure(figsize=(10,10))
plt.plot(fpr, tpr, color='darkorange',
         lw=lw, label='ROC curve (area = %0.2f)' % roc_auc) 
###假正率為橫坐標(biāo),真正率為縱坐標(biāo)做曲線
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()
model.score(X_test, Y_test)
model.predict_proba(3)

當(dāng)我們給定輸入一個(gè)特征的時(shí)候,可以返回其概率值,返回的第一個(gè)是其為0的概率值,第二個(gè)是為1的概率值。根據(jù)我們的決策面的結(jié)果,也就是x=3時(shí)候我們的logistic的函數(shù)值就是其為1的概率值。當(dāng)這個(gè)值大于0.5的時(shí)候,我們做出決策,認(rèn)為它的值為1,當(dāng)這個(gè)概率值小于0.5的時(shí)候,我們做出決策,認(rèn)為它的值為0。

在這里,我們發(fā)現(xiàn),這個(gè)值為0.715,所以在此模型下,我們做出決策,認(rèn)為值為1,通過上文我們定義的字典數(shù)據(jù),可以發(fā)現(xiàn),我們的決策是正確的。

當(dāng)然,這只是最初級(jí)的入門級(jí)的邏輯回歸的應(yīng)用,還有許多更精深的內(nèi)容等著我們?nèi)W(xué)習(xí)呢。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容