scikit-learn系列之如何導(dǎo)入數(shù)據(jù)

如何導(dǎo)入數(shù)據(jù)

這是我關(guān)于scikit-learn學(xué)習(xí)系列的第一篇博客,這個系列的主要目的是跟隨著名博主Jason Brownlee的博客machinelearningmastery,學(xué)習(xí)機器學(xué)習(xí)算法和相關(guān)實現(xiàn)。

開篇很簡單,學(xué)習(xí)兩種數(shù)據(jù)導(dǎo)入方法:一種是導(dǎo)入scikit-learn內(nèi)置的數(shù)據(jù)集。另外一種是導(dǎo)入本地的或者網(wǎng)絡(luò)上的數(shù)據(jù)集。

  1. 第一種方法,使用load_*方法導(dǎo)入scikit-learn數(shù)據(jù)集,可以用于回歸或者分類算法的實驗。代碼如下:
from sklearn.datasets import load_iris
iris = load_iris()
print(iris)
  1. 第二種方法,使用到urllib和numpy包,下從網(wǎng)絡(luò)上獲取原始數(shù)據(jù),在把數(shù)據(jù)load進來,編程numpy的數(shù)據(jù)結(jié)構(gòu),分割自變量和因變量。代碼實現(xiàn)如下:
import numpy as np
import urllib
data_link = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
raw_data = urllib.urlopen(data_link)
data = np.loadtxt(raw_data,delimiter=",")
print(data.shape)
x = data[:,0:7]
y = data[:,8]
print x,y
  1. 學(xué)習(xí)到的知識點:
  • sklearn.datasets.load_iris()導(dǎo)入sklearn內(nèi)置數(shù)據(jù)集。
  • urllib.urlopen(link)獲取網(wǎng)絡(luò)數(shù)據(jù)
  • numpy.loadtxt()導(dǎo)入text數(shù)據(jù)

原文鏈接:How to Load Data in Python with Scikit-Learn

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容