
如何導(dǎo)入數(shù)據(jù)
這是我關(guān)于scikit-learn學(xué)習(xí)系列的第一篇博客,這個系列的主要目的是跟隨著名博主Jason Brownlee的博客machinelearningmastery,學(xué)習(xí)機器學(xué)習(xí)算法和相關(guān)實現(xiàn)。
開篇很簡單,學(xué)習(xí)兩種數(shù)據(jù)導(dǎo)入方法:一種是導(dǎo)入scikit-learn內(nèi)置的數(shù)據(jù)集。另外一種是導(dǎo)入本地的或者網(wǎng)絡(luò)上的數(shù)據(jù)集。
- 第一種方法,使用load_*方法導(dǎo)入scikit-learn數(shù)據(jù)集,可以用于回歸或者分類算法的實驗。代碼如下:
from sklearn.datasets import load_iris
iris = load_iris()
print(iris)
- 第二種方法,使用到urllib和numpy包,下從網(wǎng)絡(luò)上獲取原始數(shù)據(jù),在把數(shù)據(jù)load進來,編程numpy的數(shù)據(jù)結(jié)構(gòu),分割自變量和因變量。代碼實現(xiàn)如下:
import numpy as np
import urllib
data_link = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
raw_data = urllib.urlopen(data_link)
data = np.loadtxt(raw_data,delimiter=",")
print(data.shape)
x = data[:,0:7]
y = data[:,8]
print x,y
- 學(xué)習(xí)到的知識點:
- sklearn.datasets.load_iris()導(dǎo)入sklearn內(nèi)置數(shù)據(jù)集。
- urllib.urlopen(link)獲取網(wǎng)絡(luò)數(shù)據(jù)
- numpy.loadtxt()導(dǎo)入text數(shù)據(jù)