線性回歸
# 加載數(shù)據(jù)分析常用庫(kù)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
% matplotlib inline
機(jī)器學(xué)習(xí)是一個(gè)很復(fù)雜又很廣闊的概念,可以說是包羅萬象的。從數(shù)據(jù)分析到機(jī)器學(xué)習(xí)再到深度學(xué)習(xí),這是一個(gè)不斷進(jìn)步和發(fā)展的過程。這里就通過一個(gè)很基礎(chǔ)的入門項(xiàng)目,來演練一下機(jī)器學(xué)習(xí)的過程。
機(jī)器學(xué)習(xí)的本質(zhì)其實(shí)就是通過訓(xùn)練集建立一個(gè)模型,而后可以通過這個(gè)模型實(shí)現(xiàn)對(duì)于特征的識(shí)別,得出結(jié)果標(biāo)簽,而這個(gè)模型可以是多種多樣的,簡(jiǎn)單線性回歸模型只是其中的最基礎(chǔ)最簡(jiǎn)單的一種模型。
1 建立一個(gè)數(shù)據(jù)集(如果不規(guī)整的數(shù)據(jù)集,需要按照數(shù)據(jù)分析的流程進(jìn)行一遍數(shù)據(jù)清洗,這里僅僅舉個(gè)例子,就跳過數(shù)據(jù)分析這一步了)
#首先我們先建立一個(gè)數(shù)據(jù)集,這也是之后用來訓(xùn)練和測(cè)試的數(shù)據(jù)
#導(dǎo)入包,創(chuàng)建數(shù)據(jù)集
from collections import OrderedDict
import pandas as pd
examDict={
'學(xué)習(xí)時(shí)間':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,
2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
'分?jǐn)?shù)': [10, 22, 13, 43, 20, 22, 33, 50, 62,
48, 55, 75, 62, 73, 81, 76, 64, 82, 90, 93]
}
examOrderDict=OrderedDict(examDict)
exam=pd.DataFrame(examOrderDict)
#看看數(shù)據(jù)集長(zhǎng)什么樣
exam.head()
2 看看適不適合用線性回歸的模型(通過畫圖)
#接下來我們先大致看一下特征和標(biāo)簽之間的關(guān)系
#然后來判斷是否適合使用簡(jiǎn)單線性回歸模型
#如果不適合,就換用其他模型
#這里是舉例,肯定可以用的
#特征是學(xué)習(xí)時(shí)間,標(biāo)簽是分?jǐn)?shù)
#用散點(diǎn)圖看一下大致情況
#從dataframe中把標(biāo)簽和特征導(dǎo)出來
exam_X = exam['學(xué)習(xí)時(shí)間']
exam_Y = exam['分?jǐn)?shù)']
#繪制散點(diǎn)圖
#導(dǎo)入包
import matplotlib.pyplot as plt
#繪制散點(diǎn)圖
plt.scatter(exam_X, exam_Y, color = 'green')
#設(shè)定X,Y軸標(biāo)簽和title
plt.ylabel('scores')
plt.xlabel('times')
plt.title('exam data')
plt.show()
3 分割數(shù)據(jù)
這里不能把這個(gè)數(shù)據(jù)集都作為訓(xùn)練數(shù)據(jù)集,那樣的話就沒有數(shù)據(jù)來測(cè)試一下我們的模型好壞了,所以需要把數(shù)據(jù)集分割一下,要用到一個(gè)函數(shù)。
#train_test_split函數(shù)可以在樣本數(shù)據(jù)集中隨機(jī)的選取測(cè)試集與訓(xùn)練集
#比例可以自己指定
#第一個(gè)參數(shù)為特征,第二個(gè)參數(shù)為標(biāo)簽
from sklearn.cross_validation import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(exam_X,
exam_Y,
train_size = 0.8)
#這里可以簡(jiǎn)單的看一下分割后的結(jié)果
X_train.head()
X_train.shape
#可以發(fā)現(xiàn)訓(xùn)練集是16行一列的數(shù)據(jù),測(cè)試集是四行一列,符合切分比例
4 導(dǎo)入模型
#首先,改變一下數(shù)組的形狀
X_train = X_train.values.reshape(-1, 1)
X_test = X_test.values.reshape(-1, 1)
#從skl中導(dǎo)入線性回歸的模型
from sklearn.linear_model import LinearRegression
#創(chuàng)建一個(gè)模型
model = LinearRegression()
#訓(xùn)練一下
model.fit(X_train, Y_train)
#因?yàn)榫€性回歸一般方程為y = a+bx
#b為斜率,a為截距
#截距用intercept_方法獲得
#斜率用model.coef_方法獲得
a = model.intercept_
b = model.coef_
a = float(a)
b = float(b)
print('該模型的簡(jiǎn)單線性回歸方程為y = {} + {} * x'.format(a, b))
5 評(píng)估模型
我們得到的方程是這些點(diǎn)的最佳擬合曲線,那么我們首先看一下這個(gè)曲線的具體位置。
import matplotlib.pyplot as plt
#繪制散點(diǎn)圖
plt.scatter(exam_X, exam_Y, color = 'green', label = 'train data')
#設(shè)定X,Y軸標(biāo)簽和title
plt.ylabel('scores')
plt.xlabel('times')
#繪制最佳擬合曲線
Y_train_pred = model.predict(X_train)
plt.plot(X_train, Y_train_pred, color = 'black', label = 'best line')
#來個(gè)圖例
plt.legend(loc = 2)
plt.show()
但是僅僅通過擬合曲線我們是無法準(zhǔn)確判斷模型的擬合程度的,我們還需要更加具體的評(píng)判方式。
在線性回歸中,我們通過決定系數(shù) R^{2} 來判別,這個(gè)數(shù)值越接近于1,說明模型的擬合度越好
,通過測(cè)試數(shù)據(jù)來判斷一下模型的擬合程度。
model.score(X_test, Y_test)
邏輯回歸
# 加載數(shù)據(jù)分析常用庫(kù)
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
% matplotlib inline
邏輯回歸其實(shí)并不是一個(gè)回歸類的模型,而是用于處理分類問題的。即結(jié)果的標(biāo)簽是一個(gè)二分類的問題。舉個(gè)例子吧,頁(yè)面上彈出一個(gè)廣告,你只有點(diǎn)進(jìn)去看或者不看這兩種結(jié)果,就像每次考試,只有通過和未通過兩種結(jié)果,空難,只有幸存和非幸存兩種結(jié)果,我們一般用0和1來把這些結(jié)果分為兩類。邏輯回歸就是通過一些特征來預(yù)測(cè)其標(biāo)簽是0還是1,評(píng)估模型算法的正確率的方法就是用預(yù)測(cè)正確的測(cè)試數(shù)目除以總的測(cè)試數(shù)目。下面就通過一個(gè)簡(jiǎn)單的案例來展示一下機(jī)器學(xué)習(xí)的入門。
1創(chuàng)建數(shù)據(jù)集
因?yàn)橹皇且粋€(gè)小案例,所以就僅僅簡(jiǎn)單的創(chuàng)建了一個(gè)微小的數(shù)據(jù)集進(jìn)行演示
#導(dǎo)入包
from collections import OrderedDict
import pandas as pd
#創(chuàng)見數(shù)據(jù)集
examDict={
'學(xué)習(xí)時(shí)間':[0.50,0.75,1.00,1.25,1.50,1.75,1.75,2.00,2.25,
2.50,2.75,3.00,3.25,3.50,4.00,4.25,4.50,4.75,5.00,5.50],
'考試結(jié)果': [0, 0, 0, 0, 0, 0, 0, 0, 1,
0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1]
}
examOrderDict=OrderedDict(examDict)
exam=pd.DataFrame(examOrderDict)
exam.head()
繼續(xù)看看數(shù)據(jù)長(zhǎng)啥樣,是不是二分類數(shù)據(jù),適不適合用邏輯回歸。從圖中可以看出,顯然適合用邏輯回歸分類
exam_X = exam['學(xué)習(xí)時(shí)間']
exam_Y = exam['考試結(jié)果']
#導(dǎo)入包
import matplotlib.pyplot as plt
#繪制散點(diǎn)圖
plt.scatter(exam_X, exam_Y, color = 'green')
#設(shè)定X,Y軸標(biāo)簽和title
plt.ylabel('scores')
plt.xlabel('times')
plt.title('exam data')
plt.show()
2 拆分
我們把這樣的一個(gè)數(shù)據(jù)集分別拆分為測(cè)試集和訓(xùn)練集,用以接下來的訓(xùn)練和測(cè)試。
#導(dǎo)入包
from sklearn.cross_validation import train_test_split
#把數(shù)據(jù)分類
X_train, X_test, Y_train, Y_test = train_test_split(exam_X,
exam_Y,
train_size = 0.8)
#因?yàn)樘卣髦挥幸粋€(gè),所以要改變一下數(shù)據(jù)形狀
X_train = X_train.values.reshape(-1, 1)
X_test = X_test.values.reshape(-1, 1)
#導(dǎo)入
from sklearn.linear_model import LogisticRegression
#創(chuàng)建模型
model = LogisticRegression()
#訓(xùn)練
y_score = model.fit(X_train, Y_train).decision_function(X_test)
from sklearn.metrics import roc_curve, auc
fpr,tpr,threshold = roc_curve(Y_test, y_score)
roc_auc = auc(fpr,tpr)
plt.figure()
lw = 2
plt.figure(figsize=(10,10))
plt.plot(fpr, tpr, color='darkorange',
lw=lw, label='ROC curve (area = %0.2f)' % roc_auc)
###假正率為橫坐標(biāo),真正率為縱坐標(biāo)做曲線
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()
model.score(X_test, Y_test)
model.predict_proba(3)
當(dāng)我們給定輸入一個(gè)特征的時(shí)候,可以返回其概率值,返回的第一個(gè)是其為0的概率值,第二個(gè)是為1的概率值。根據(jù)我們的決策面的結(jié)果,也就是x=3時(shí)候我們的logistic的函數(shù)值就是其為1的概率值。當(dāng)這個(gè)值大于0.5的時(shí)候,我們做出決策,認(rèn)為它的值為1,當(dāng)這個(gè)概率值小于0.5的時(shí)候,我們做出決策,認(rèn)為它的值為0。
在這里,我們發(fā)現(xiàn),這個(gè)值為0.715,所以在此模型下,我們做出決策,認(rèn)為值為1,通過上文我們定義的字典數(shù)據(jù),可以發(fā)現(xiàn),我們的決策是正確的。
當(dāng)然,這只是最初級(jí)的入門級(jí)的邏輯回歸的應(yīng)用,還有許多更精深的內(nèi)容等著我們?nèi)W(xué)習(xí)呢。