線性回歸

# 加載數(shù)據(jù)分析常用庫(kù)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
% matplotlib inline

機(jī)器學(xué)習(xí)是一個(gè)很復(fù)雜又很廣闊的概念，可以說是包羅萬象的。從數(shù)據(jù)分析到機(jī)器學(xué)習(xí)再到深度學(xué)習(xí)，這是一個(gè)不斷進(jìn)步和發(fā)展的過程。這里就通過一個(gè)很基礎(chǔ)的入門項(xiàng)目，來演練一下機(jī)器學(xué)習(xí)的過程。

機(jī)器學(xué)習(xí)的本質(zhì)其實(shí)就是通過訓(xùn)練集建立一個(gè)模型，而后可以通過這個(gè)模型實(shí)現(xiàn)對(duì)于特征的識(shí)別，得出結(jié)果標(biāo)簽，而這個(gè)模型可以是多種多樣的，簡(jiǎn)單線性回歸模型只是其中的最基礎(chǔ)最簡(jiǎn)單的一種模型。

1 建立一個(gè)數(shù)據(jù)集（如果不規(guī)整的數(shù)據(jù)集，需要按照數(shù)據(jù)分析的流程進(jìn)行一遍數(shù)據(jù)清洗，這里僅僅舉個(gè)例子，就跳過數(shù)據(jù)分析這一步了）

#首先我們先建立一個(gè)數(shù)據(jù)集，這也是之后用來訓(xùn)練和測(cè)試的數(shù)據(jù)
#導(dǎo)入包，創(chuàng)建數(shù)據(jù)集
from collections import OrderedDict
import pandas as pd
examDict={
    '學(xué)習(xí)時(shí)間':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,
            2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
    '分?jǐn)?shù)':    [10,  22,  13,  43,  20,  22,  33,  50,  62,  
              48,  55,  75,  62,  73,  81,  76,  64,  82,  90,  93]
}
examOrderDict=OrderedDict(examDict)
exam=pd.DataFrame(examOrderDict)
#看看數(shù)據(jù)集長(zhǎng)什么樣
exam.head()

2 看看適不適合用線性回歸的模型（通過畫圖）

#接下來我們先大致看一下特征和標(biāo)簽之間的關(guān)系
#然后來判斷是否適合使用簡(jiǎn)單線性回歸模型
#如果不適合，就換用其他模型
#這里是舉例，肯定可以用的
#特征是學(xué)習(xí)時(shí)間，標(biāo)簽是分?jǐn)?shù)
#用散點(diǎn)圖看一下大致情況

#從dataframe中把標(biāo)簽和特征導(dǎo)出來
exam_X = exam['學(xué)習(xí)時(shí)間']
exam_Y = exam['分?jǐn)?shù)']

#繪制散點(diǎn)圖

#導(dǎo)入包
import matplotlib.pyplot as plt
#繪制散點(diǎn)圖
plt.scatter(exam_X, exam_Y, color = 'green')
#設(shè)定X,Y軸標(biāo)簽和title
plt.ylabel('scores')
plt.xlabel('times')
plt.title('exam data')
plt.show()

3 分割數(shù)據(jù)

這里不能把這個(gè)數(shù)據(jù)集都作為訓(xùn)練數(shù)據(jù)集，那樣的話就沒有數(shù)據(jù)來測(cè)試一下我們的模型好壞了，所以需要把數(shù)據(jù)集分割一下，要用到一個(gè)函數(shù)。

#train_test_split函數(shù)可以在樣本數(shù)據(jù)集中隨機(jī)的選取測(cè)試集與訓(xùn)練集
#比例可以自己指定
#第一個(gè)參數(shù)為特征，第二個(gè)參數(shù)為標(biāo)簽
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(exam_X,
                                                    exam_Y, 
                                                    train_size = 0.8)
#這里可以簡(jiǎn)單的看一下分割后的結(jié)果
X_train.head()
X_train.shape
#可以發(fā)現(xiàn)訓(xùn)練集是16行一列的數(shù)據(jù)，測(cè)試集是四行一列，符合切分比例

4 導(dǎo)入模型

#首先，改變一下數(shù)組的形狀
X_train = X_train.values.reshape(-1, 1)
X_test = X_test.values.reshape(-1, 1)
#從skl中導(dǎo)入線性回歸的模型
from sklearn.linear_model import LinearRegression
#創(chuàng)建一個(gè)模型
model = LinearRegression()
#訓(xùn)練一下
model.fit(X_train, Y_train)

#因?yàn)榫€性回歸一般方程為y = a+bx
#b為斜率，a為截距
#截距用intercept_方法獲得
#斜率用model.coef_方法獲得
a = model.intercept_
b = model.coef_
a = float(a)
b = float(b)
print('該模型的簡(jiǎn)單線性回歸方程為y = {} + {} * x'.format(a, b))

5 評(píng)估模型

我們得到的方程是這些點(diǎn)的最佳擬合曲線，那么我們首先看一下這個(gè)曲線的具體位置。

import matplotlib.pyplot as plt
#繪制散點(diǎn)圖
plt.scatter(exam_X, exam_Y, color = 'green', label = 'train data')
#設(shè)定X,Y軸標(biāo)簽和title
plt.ylabel('scores')
plt.xlabel('times')

#繪制最佳擬合曲線
Y_train_pred = model.predict(X_train)
plt.plot(X_train, Y_train_pred, color = 'black', label = 'best line')

#來個(gè)圖例
plt.legend(loc = 2)

plt.show()

但是僅僅通過擬合曲線我們是無法準(zhǔn)確判斷模型的擬合程度的，我們還需要更加具體的評(píng)判方式。

在線性回歸中，我們通過決定系數(shù) R^{2} 來判別，這個(gè)數(shù)值越接近于1，說明模型的擬合度越好

，通過測(cè)試數(shù)據(jù)來判斷一下模型的擬合程度。

model.score(X_test, Y_test)

邏輯回歸

# 加載數(shù)據(jù)分析常用庫(kù)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
% matplotlib inline

邏輯回歸其實(shí)并不是一個(gè)回歸類的模型，而是用于處理分類問題的。即結(jié)果的標(biāo)簽是一個(gè)二分類的問題。舉個(gè)例子吧，頁(yè)面上彈出一個(gè)廣告，你只有點(diǎn)進(jìn)去看或者不看這兩種結(jié)果，就像每次考試，只有通過和未通過兩種結(jié)果，空難，只有幸存和非幸存兩種結(jié)果，我們一般用0和1來把這些結(jié)果分為兩類。邏輯回歸就是通過一些特征來預(yù)測(cè)其標(biāo)簽是0還是1，評(píng)估模型算法的正確率的方法就是用預(yù)測(cè)正確的測(cè)試數(shù)目除以總的測(cè)試數(shù)目。下面就通過一個(gè)簡(jiǎn)單的案例來展示一下機(jī)器學(xué)習(xí)的入門。
1創(chuàng)建數(shù)據(jù)集

因?yàn)橹皇且粋€(gè)小案例，所以就僅僅簡(jiǎn)單的創(chuàng)建了一個(gè)微小的數(shù)據(jù)集進(jìn)行演示

#導(dǎo)入包
from collections import OrderedDict
import pandas as pd

#創(chuàng)見數(shù)據(jù)集
examDict={
    '學(xué)習(xí)時(shí)間':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,
            2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
    '考試結(jié)果':    [0,  0,  0,  0,  0,  0,  0,  0,  1,  
              0,  0,  1,  1,  1,  1,  1,  1,  1,  1,  1]
}
examOrderDict=OrderedDict(examDict)

exam=pd.DataFrame(examOrderDict)

exam.head()

繼續(xù)看看數(shù)據(jù)長(zhǎng)啥樣，是不是二分類數(shù)據(jù)，適不適合用邏輯回歸。從圖中可以看出，顯然適合用邏輯回歸分類

exam_X = exam['學(xué)習(xí)時(shí)間']
exam_Y = exam['考試結(jié)果']
#導(dǎo)入包
import matplotlib.pyplot as plt
#繪制散點(diǎn)圖
plt.scatter(exam_X, exam_Y, color = 'green')
#設(shè)定X,Y軸標(biāo)簽和title
plt.ylabel('scores')
plt.xlabel('times')
plt.title('exam data')
plt.show()

2 拆分

我們把這樣的一個(gè)數(shù)據(jù)集分別拆分為測(cè)試集和訓(xùn)練集，用以接下來的訓(xùn)練和測(cè)試。

#導(dǎo)入包
from sklearn.cross_validation import train_test_split

#把數(shù)據(jù)分類
X_train, X_test, Y_train, Y_test = train_test_split(exam_X,
                                                    exam_Y, 
                                                    train_size = 0.8)
#因?yàn)樘卣髦挥幸粋€(gè)，所以要改變一下數(shù)據(jù)形狀
X_train = X_train.values.reshape(-1, 1)
X_test = X_test.values.reshape(-1, 1)
#導(dǎo)入
from sklearn.linear_model import LogisticRegression
#創(chuàng)建模型
model = LogisticRegression()
#訓(xùn)練
y_score = model.fit(X_train, Y_train).decision_function(X_test)

from sklearn.metrics import roc_curve, auc
fpr,tpr,threshold = roc_curve(Y_test, y_score)

roc_auc = auc(fpr,tpr)
plt.figure()
lw = 2
plt.figure(figsize=(10,10))
plt.plot(fpr, tpr, color='darkorange',
         lw=lw, label='ROC curve (area = %0.2f)' % roc_auc) 
###假正率為橫坐標(biāo)，真正率為縱坐標(biāo)做曲線
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

model.score(X_test, Y_test)

model.predict_proba(3)

當(dāng)我們給定輸入一個(gè)特征的時(shí)候，可以返回其概率值，返回的第一個(gè)是其為0的概率值，第二個(gè)是為1的概率值。根據(jù)我們的決策面的結(jié)果，也就是x=3時(shí)候我們的logistic的函數(shù)值就是其為1的概率值。當(dāng)這個(gè)值大于0.5的時(shí)候，我們做出決策，認(rèn)為它的值為1，當(dāng)這個(gè)概率值小于0.5的時(shí)候，我們做出決策，認(rèn)為它的值為0。

在這里，我們發(fā)現(xiàn)，這個(gè)值為0.715，所以在此模型下，我們做出決策，認(rèn)為值為1，通過上文我們定義的字典數(shù)據(jù)，可以發(fā)現(xiàn)，我們的決策是正確的。

當(dāng)然，這只是最初級(jí)的入門級(jí)的邏輯回歸的應(yīng)用，還有許多更精深的內(nèi)容等著我們?nèi)W(xué)習(xí)呢。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

python從入門到入土教程（6）——機(jī)器學(xué)習(xí)（線性回歸與邏輯回歸）

python從入門到入土教程（6）——機(jī)器學(xué)習(xí)（線性回歸與邏輯回歸）

線性回歸

邏輯回歸

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

python從入門到入土教程（6）——機(jī)器學(xué)習(xí)（線性回歸與邏輯回歸）

線性回歸

邏輯回歸

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av