Numpy基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)
NumPy數(shù)組是一個多維數(shù)組對象,稱為ndarray。其由兩部分組成:
① 實際的數(shù)據(jù)
② 描述這些數(shù)據(jù)的元數(shù)據(jù)
# 多維數(shù)組ndarray
import numpy as np
ar = np.array([1,2,3,4,5,6,7])
print(ar) # 輸出數(shù)組,注意數(shù)組的格式:中括號,元素之間沒有逗號(和列表區(qū)分)
print(ar.ndim) # 輸出數(shù)組維度的個數(shù)(軸數(shù)),或者說“秩”,維度的數(shù)量也稱rank
print(ar.shape) # 數(shù)組的維度,對于n行m列的數(shù)組,shape為(n,m)
print(ar.size) # 數(shù)組的元素總數(shù),對于n行m列的數(shù)組,元素總數(shù)為n*m
print(ar.dtype) # 數(shù)組中元素的類型,類似type()(注意了,type()是函數(shù),.dtype是方法)
print(ar.itemsize) # 數(shù)組中每個元素的字節(jié)大小,int32l類型字節(jié)為4,float64的字節(jié)為8
print(ar.data) # 包含實際數(shù)組元素的緩沖區(qū),由于一般通過數(shù)組的索引獲取元素,所以通常不需要使用這個屬性。
ar # 交互方式下輸出,會有array(數(shù)組)
數(shù)組的基本屬性
① 數(shù)組的維數(shù)稱為秩(rank),一維數(shù)組的秩為1,二維數(shù)組的秩為2,以此類推
② 在NumPy中,每一個線性的數(shù)組稱為是一個軸(axes),秩其實是描述軸的數(shù)量:
比如說,二維數(shù)組相當(dāng)于是兩個一維數(shù)組,其中第一個一維數(shù)組中每個元素又是一個一維數(shù)組
所以一維數(shù)組就是NumPy中的軸(axes),第一個軸相當(dāng)于是底層數(shù)組,第二個軸是底層數(shù)組里的數(shù)組。
而軸的數(shù)量——秩,就是數(shù)組的維數(shù)。
創(chuàng)建數(shù)組的5種方式
創(chuàng)建數(shù)組:array()函數(shù)
括號內(nèi)可以是列表、元祖、數(shù)組、生成器等
ar1 = np.array(range(10)) # 整型
ar2 = np.array([1,2,3.14,4,5]) # 浮點型
ar3 = np.array([[1,2,3],('a','b','c')]) # 二維數(shù)組:嵌套序列(列表,元祖均可)
ar4 = np.array([[1,2,3],('a','b','c','d')]) # 注意嵌套序列數(shù)量不一會怎么樣
print(ar1,type(ar1),ar1.dtype)
print(ar2,type(ar2),ar2.dtype)
print(ar3,ar3.shape,ar3.ndim,ar3.size) # 二維數(shù)組,共6個元素
print(ar4,ar4.shape,ar4.ndim,ar4.size) # 一維數(shù)組,共2個元素
創(chuàng)建數(shù)組:arange()
類似range(),在給定間隔內(nèi)返回均勻間隔的值。
print(np.arange(10)) # 返回0-9,整型
print(np.arange(10.0)) # 返回0.0-9.0,浮點型
print(np.arange(5,12)) # 返回5-11
print(np.arange(5.0,12,2)) # 返回5.0-12.0,步長為2
print(np.arange(10000)) # 如果數(shù)組太大而無法打印,NumPy會自動跳過數(shù)組的中心部分,并只打印邊角:
創(chuàng)建數(shù)組:linspace()
返回在間隔[開始,停止]上計算的num個均勻間隔的樣本。
# numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
# start:起始值,stop:結(jié)束值
# num:生成樣本數(shù),默認(rèn)為50
# endpoint:如果為真,則停止是最后一個樣本。否則,不包括在內(nèi)。默認(rèn)值為True。
# retstep:如果為真,返回(樣本,步驟),其中步長是樣本之間的間距 → 輸出為一個包含2個元素的元祖,第一個元素為array,第二個為步長實際值
ar1 = np.linspace(2.0, 3.0, num=5)
ar2 = np.linspace(2.0, 3.0, num=5, endpoint=False)
ar3 = np.linspace(2.0, 3.0, num=5, retstep=True)
print(ar1,type(ar1))
print(ar2)
print(ar3,type(ar3))
創(chuàng)建數(shù)組:zeros()/zeros_like()/ones()/ones_like()
# numpy.zeros(shape, dtype=float, order='C'):返回給定形狀和類型的新數(shù)組,用零填充。
# shape:數(shù)組緯度,二維以上需要用(),且輸入?yún)?shù)為整數(shù)
# dtype:數(shù)據(jù)類型,默認(rèn)numpy.float64
# order:是否在存儲器中以C或Fortran連續(xù)(按行或列方式)存儲多維數(shù)據(jù)。
ar1 = np.zeros(5)
ar2 = np.zeros((2,2), dtype = np.int)
print(ar1,ar1.dtype)
print(ar2,ar2.dtype)
print('------')
# zeros_like :返回具有與給定數(shù)組相同的形狀和類型的零數(shù)組,這里ar4根據(jù)ar3的形狀和dtype創(chuàng)建一個全0的數(shù)組
ar3 = np.array([list(range(5)),list(range(5,10))])
ar4 = np.zeros_like(ar3)
print(ar3)
print(ar4)
print('------')
# ones()/ones_like()和zeros()/zeros_like()一樣,只是填充為1
ar5 = np.ones(9)
ar6 = np.ones((2,3,4))
ar7 = np.ones_like(ar3)
print(ar5)
print(ar6)
print(ar7)
創(chuàng)建數(shù)組:eye()
#創(chuàng)建一個正方的N*N的單位矩陣,對角線值為1,其余為0
print(np.eye(5))
ndarray的數(shù)據(jù)類型
bool 用一個字節(jié)存儲的布爾類型(True或False)
inti 由所在平臺決定其大小的整數(shù)(一般為int32或int64)
int8 一個字節(jié)大小,-128 至 127
int16 整數(shù),-32768 至 32767
int32 整數(shù),-2 ** 31 至 2 ** 32 -1
int64 整數(shù),-2 ** 63 至 2 ** 63 - 1
uint8 無符號整數(shù),0 至 255
uint16 無符號整數(shù),0 至 65535
uint32 無符號整數(shù),0 至 2 ** 32 - 1
uint64 無符號整數(shù),0 至 2 ** 64 - 1
float16 半精度浮點數(shù):16位,正負(fù)號1位,指數(shù)5位,精度10位
float32 單精度浮點數(shù):32位,正負(fù)號1位,指數(shù)8位,精度23位
float64或float 雙精度浮點數(shù):64位,正負(fù)號1位,指數(shù)11位,精度52位
complex64 復(fù)數(shù),分別用兩個32位浮點數(shù)表示實部和虛部
complex128或complex 復(fù)數(shù),分別用兩個64位浮點數(shù)表示實部和虛部
Numpy通用函數(shù)
基本操作
# 數(shù)組形狀:.T/.reshape()/.resize()
# .T方法:轉(zhuǎn)置,例如原shape為(3,4)/(2,3,4),轉(zhuǎn)置結(jié)果為(4,3)/(4,3,2) → 所以一維數(shù)組轉(zhuǎn)置后結(jié)果不變
ar1 = np.arange(10)
ar2 = np.ones((5,2))
print(ar1,'\n',ar1.T)
print(ar2,'\n',ar2.T)
print('------')
# numpy.reshape(a, newshape, order='C'):為數(shù)組提供新形狀,而不更改其數(shù)據(jù),所以元素數(shù)量需要一致!!
ar3 = ar1.reshape(2,5) # 用法1:直接將已有數(shù)組改變形狀
ar4 = np.zeros((4,6)).reshape(3,8) # 用法2:生成數(shù)組后直接改變形狀
ar5 = np.reshape(np.arange(12),(3,4)) # 用法3:參數(shù)內(nèi)添加數(shù)組,目標(biāo)形狀
print(ar1,'\n',ar3)
print(ar4)
print(ar5)
print('------')
# numpy.resize(a, new_shape):返回具有指定形狀的新數(shù)組,如有必要可重復(fù)填充所需數(shù)量的元素。
ar6 = np.resize(np.arange(5),(3,4))
print(ar6)
注意了:.T/.reshape()/.resize()都是生成新的數(shù)組?。?!
數(shù)組的復(fù)制
# 回憶python的賦值邏輯:指向內(nèi)存中生成的一個值 → 這里ar1和ar2指向同一個值,所以ar1改變,ar2一起改變
ar1 = np.arange(10)
ar2 = ar1
print(ar2 is ar1)
ar1[2] = 9
print(ar1,ar2)
# copy方法生成數(shù)組及其數(shù)據(jù)的完整拷貝
ar3 = ar1.copy()
print(ar3 is ar1)
ar1[0] = 9
print(ar1,ar3)
再次提醒:.T/.reshape()/.resize()都是生成新的數(shù)組?。?!
數(shù)組類型轉(zhuǎn)換:.astype()
# 可以在參數(shù)位置設(shè)置數(shù)組類型
ar1 = np.arange(10,dtype=float)
print(ar1,ar1.dtype)
# a.astype():轉(zhuǎn)換數(shù)組類型
ar2 = ar1.astype(np.int32)
print(ar2,ar2.dtype)
print(ar1,ar1.dtype)
注意:養(yǎng)成好習(xí)慣,數(shù)組類型用np.int32,而不是直接int32數(shù)組
數(shù)組堆疊
# numpy.hstack(tup):水平(按列順序)堆疊數(shù)組
a = np.arange(5) # a為一維數(shù)組,5個元素
b = np.arange(5,9) # b為一維數(shù)組,4個元素
ar1 = np.hstack((a,b)) # 注意:((a,b)),這里形狀可以不一樣
print(a,a.shape)
print(b,b.shape)
print(ar1,ar1.shape)
a = np.array([[1],[2],[3]]) # a為二維數(shù)組,3行1列
b = np.array([['a'],['b'],['c']]) # b為二維數(shù)組,3行1列
ar2 = np.hstack((a,b)) # 注意:((a,b)),這里形狀必須一樣
print(a,a.shape)
print(b,b.shape)
print(ar2,ar2.shape)
# numpy.vstack(tup):垂直(按列順序)堆疊數(shù)組
a = np.arange(5)
b = np.arange(5,10)
ar1 = np.vstack((a,b))
print(a,a.shape)
print(b,b.shape)
print(ar1,ar1.shape)
a = np.array([[1],[2],[3]])
b = np.array([['a'],['b'],['c'],['d']])
ar2 = np.vstack((a,b)) # 這里形狀可以不一樣
print(a,a.shape)
print(b,b.shape)
print(ar2,ar2.shape)
# numpy.stack(arrays, axis=0):沿著新軸連接數(shù)組的序列,形狀必須一樣!
# 重點解釋axis參數(shù)的意思,假設(shè)兩個數(shù)組[1 2 3]和[4 5 6],shape均為(3,0)
# axis=0:[[1 2 3] [4 5 6]],shape為(2,3)
# axis=1:[[1 4] [2 5] [3 6]],shape為(3,2)
a = np.arange(5)
b = np.arange(5,10)
ar1 = np.stack((a,b))
ar2 = np.stack((a,b),axis = 1)
print(a,a.shape)
print(b,b.shape)
print(ar1,ar1.shape)
print(ar2,ar2.shape)
數(shù)組拆分
# numpy.hsplit(ary, indices_or_sections):將數(shù)組水平(逐列)拆分為多個子數(shù)組 → 按列拆分
# 輸出結(jié)果為列表,列表中元素為數(shù)組
ar = np.arange(16).reshape(4,4)
ar1 = np.hsplit(ar,2)
print(ar)
print(ar1,type(ar1))
# numpy.vsplit(ary, indices_or_sections)::將數(shù)組垂直(行方向)拆分為多個子數(shù)組 → 按行拆
ar2 = np.vsplit(ar,4)
print(ar2,type(ar2))
數(shù)組簡單運算
# 與標(biāo)量的運算
ar = np.arange(6).reshape(2,3)
print(ar + 10) # 加法
print(ar * 2) # 乘法
print(1 / (ar+1)) # 除法
print(ar ** 0.5) # 冪
# 常用函數(shù)
print(ar.mean()) # 求平均值
print(ar.max()) # 求最大值
print(ar.min()) # 求最小值
print(ar.std()) # 求標(biāo)準(zhǔn)差
print(ar.var()) # 求方差
print(ar.sum(), np.sum(ar,axis = 0)) # 求和,np.sum() → axis為0,按列求和;axis為1,按行求和
print(np.sort(np.array([1,4,3,2,5,6]))) # 排序
Numpy索引及切片
核心:基本索引及切片 / 布爾型索引及切片
# 一維數(shù)組索引及切片
ar = np.arange(20)
print(ar)
print(ar[4])
print(ar[3:6])
# 二維數(shù)組索引及切片
ar = np.arange(16).reshape(4,4)
print(ar, '數(shù)組軸數(shù)為%i' %ar.ndim) # 4*4的數(shù)組
print(ar[2], '數(shù)組軸數(shù)為%i' %ar[2].ndim) # 切片為下一維度的一個元素,所以是一維數(shù)組
print(ar[2][1]) # 二次索引,得到一維數(shù)組中的一個值
print(ar[1:3], '數(shù)組軸數(shù)為%i' %ar[1:3].ndim) # 切片為兩個一維數(shù)組組成的二維數(shù)組
print(ar[2,2]) # 切片數(shù)組中的第三行第三列 → 10
print(ar[:2,1:]) # 切片數(shù)組中的1,2行、2,3,4列 → 二維數(shù)組
# **三維數(shù)組索引及切片
ar = np.arange(8).reshape(2,2,2)
print(ar, '數(shù)組軸數(shù)為%i' %ar.ndim) # 2*2*2的數(shù)組
print(ar[0], '數(shù)組軸數(shù)為%i' %ar[0].ndim) # 三維數(shù)組的下一個維度的第一個元素 → 一個二維數(shù)組
print(ar[0][0], '數(shù)組軸數(shù)為%i' %ar[0][0].ndim) # 三維數(shù)組的下一個維度的第一個元素下的第一個元素 → 一個一維數(shù)組
print(ar[0][0][1], '數(shù)組軸數(shù)為%i' %ar[0][0][1].ndim)
布爾型索引及切片
# 布爾型索引:以布爾型的矩陣去做篩選
ar = np.arange(12).reshape(3,4)
i = np.array([True,False,True])
j = np.array([True,True,False,False])
print(ar)
print(i)
print(j)
print(ar[i,:]) # 在第一維度做判斷,只保留True,這里第一維度就是行,ar[i,:] = ar[i](簡單書寫格式)
print(ar[:,j]) # 在第二維度做判斷,這里如果ar[:,i]會有警告,因為i是3個元素,而ar在列上有4個
m = ar > 5
print(m) # 這里m是一個判斷矩陣
print(ar[m]) # 用m判斷矩陣去篩選ar數(shù)組中>5的元素 → 重點!后面的pandas判斷方式原理就來自此處
數(shù)組索引及切片的值更改、復(fù)制
# 一個標(biāo)量賦值給一個索引/切片時,會自動改變/傳播原始數(shù)組
ar = np.arange(10)
print(ar)
ar[5] = 100
ar[7:9] = 200
print(ar)
# 復(fù)制
ar = np.arange(10)
b = ar.copy()
b[7:9] = 200
print(ar)
print(b)
Numpy隨機數(shù)
numpy.random包含多種概率分布的隨機樣本,是數(shù)據(jù)分析輔助的重點工具之一
# 隨機數(shù)生成
# 生成一個標(biāo)準(zhǔn)正太分布的4*4樣本值
samples = np.random.normal(size=(4,4))
print(samples)
均勻分布
# numpy.random.rand(d0, d1, ..., dn):生成一個[0,1)之間的隨機浮點數(shù)或N維浮點數(shù)組
import matplotlib.pyplot as plt # 導(dǎo)入matplotlib模塊,用于圖表輔助分析
%matplotlib inline
# 魔法函數(shù),每次運行自動生成圖表
# 生成一個隨機浮點數(shù)
a = np.random.rand()
print(a,type(a))
# 生成形狀為4的一維數(shù)組
b = np.random.rand(4)
print(b,type(b))
# 生成形狀為2*3的二維數(shù)組,注意這里不是((2,3))
c = np.random.rand(2,3)
print(c,type(c))
# 生成1000個均勻分布的樣本值
samples1 = np.random.rand(1000)
samples2 = np.random.rand(1000)
plt.scatter(samples1,samples2)
正態(tài)分布
# numpy.random.randn(d0, d1, ..., dn):生成一個浮點數(shù)或N維浮點數(shù)組
# randn和rand的參數(shù)用法一樣
# 生成1000個正太的樣本值
samples1 = np.random.randn(1000)
samples2 = np.random.randn(1000)
plt.scatter(samples1,samples2)
# numpy.random.randint(low, high=None, size=None, dtype='l'):生成一個整數(shù)或N維整數(shù)數(shù)組
# 若high不為None時,取[low,high)之間隨機整數(shù),否則取值[0,low)之間隨機整數(shù),且high必須大于low
# dtype參數(shù):只能是int類型
# low=2:生成1個[0,2)之間隨機整數(shù)
print(np.random.randint(2))
# low=2,size=5 :生成5個[0,2)之間隨機整數(shù)
print(np.random.randint(2,size=5))
# low=2,high=6,size=5:生成5個[2,6)之間隨機整數(shù)
print(np.random.randint(2,6,size=5))
# low=2,size=(2,3):生成一個2x3整數(shù)數(shù)組,取數(shù)范圍:[0,2)隨機整數(shù)
print(np.random.randint(2,size=(2,3)))
# low=2,high=6,size=(2,3):生成一個2*3整數(shù)數(shù)組,取值范圍:[2,6)隨機整數(shù)
print(np.random.randint(2,6,(2,3)))
Numpy數(shù)據(jù)的輸入輸出
numpy讀取/寫入數(shù)組數(shù)據(jù)、文本數(shù)據(jù)
# 存儲數(shù)組數(shù)據(jù) .npy文件
import os
os.chdir('C:/Users/Hjx/Desktop/')
ar = np.random.rand(5,5)
print(ar)
np.save('arraydata.npy', ar)
# 也可以直接 np.save('C:/Users/Hjx/Desktop/arraydata.npy', ar)
# 讀取數(shù)組數(shù)據(jù) .npy文件
ar_load =np.load('arraydata.npy')
print(ar_load)
# 也可以直接 np.load('C:/Users/Hjx/Desktop/arraydata.npy')
# 存儲/讀取文本文件
# np.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='\n', header='', footer='', comments='# '):存儲為文本txt文件
ar = np.random.rand(5,5)
np.savetxt('array.txt',ar, delimiter=',')
ar_loadtxt = np.loadtxt('array.txt', delimiter=',')
print(ar_loadtxt)
# 也可以直接 np.loadtxt('C:/Users/Hjx/Desktop/array.txt')