數(shù)據(jù)分析(一)科學(xué)計算工具 Numpy

Numpy基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)

NumPy數(shù)組是一個多維數(shù)組對象,稱為ndarray。其由兩部分組成:
① 實際的數(shù)據(jù)
② 描述這些數(shù)據(jù)的元數(shù)據(jù)

# 多維數(shù)組ndarray

import numpy as np

ar = np.array([1,2,3,4,5,6,7])
print(ar)          # 輸出數(shù)組,注意數(shù)組的格式:中括號,元素之間沒有逗號(和列表區(qū)分)
print(ar.ndim)     # 輸出數(shù)組維度的個數(shù)(軸數(shù)),或者說“秩”,維度的數(shù)量也稱rank
print(ar.shape)    # 數(shù)組的維度,對于n行m列的數(shù)組,shape為(n,m)
print(ar.size)     # 數(shù)組的元素總數(shù),對于n行m列的數(shù)組,元素總數(shù)為n*m
print(ar.dtype)    # 數(shù)組中元素的類型,類似type()(注意了,type()是函數(shù),.dtype是方法)
print(ar.itemsize) # 數(shù)組中每個元素的字節(jié)大小,int32l類型字節(jié)為4,float64的字節(jié)為8
print(ar.data)     # 包含實際數(shù)組元素的緩沖區(qū),由于一般通過數(shù)組的索引獲取元素,所以通常不需要使用這個屬性。
ar   # 交互方式下輸出,會有array(數(shù)組)

數(shù)組的基本屬性

① 數(shù)組的維數(shù)稱為秩(rank),一維數(shù)組的秩為1,二維數(shù)組的秩為2,以此類推
② 在NumPy中,每一個線性的數(shù)組稱為是一個軸(axes),秩其實是描述軸的數(shù)量:
比如說,二維數(shù)組相當(dāng)于是兩個一維數(shù)組,其中第一個一維數(shù)組中每個元素又是一個一維數(shù)組
所以一維數(shù)組就是NumPy中的軸(axes),第一個軸相當(dāng)于是底層數(shù)組,第二個軸是底層數(shù)組里的數(shù)組。
而軸的數(shù)量——秩,就是數(shù)組的維數(shù)。

創(chuàng)建數(shù)組的5種方式

創(chuàng)建數(shù)組:array()函數(shù)

括號內(nèi)可以是列表、元祖、數(shù)組、生成器等

ar1 = np.array(range(10))   # 整型
ar2 = np.array([1,2,3.14,4,5])   # 浮點型
ar3 = np.array([[1,2,3],('a','b','c')])   # 二維數(shù)組:嵌套序列(列表,元祖均可)
ar4 = np.array([[1,2,3],('a','b','c','d')])   # 注意嵌套序列數(shù)量不一會怎么樣
print(ar1,type(ar1),ar1.dtype)
print(ar2,type(ar2),ar2.dtype)
print(ar3,ar3.shape,ar3.ndim,ar3.size)     # 二維數(shù)組,共6個元素
print(ar4,ar4.shape,ar4.ndim,ar4.size)     # 一維數(shù)組,共2個元素

創(chuàng)建數(shù)組:arange()

類似range(),在給定間隔內(nèi)返回均勻間隔的值。

print(np.arange(10))    # 返回0-9,整型
print(np.arange(10.0))  # 返回0.0-9.0,浮點型
print(np.arange(5,12))  # 返回5-11
print(np.arange(5.0,12,2))  # 返回5.0-12.0,步長為2
print(np.arange(10000))  # 如果數(shù)組太大而無法打印,NumPy會自動跳過數(shù)組的中心部分,并只打印邊角:

創(chuàng)建數(shù)組:linspace()

返回在間隔[開始,停止]上計算的num個均勻間隔的樣本。

# numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
# start:起始值,stop:結(jié)束值
# num:生成樣本數(shù),默認(rèn)為50
# endpoint:如果為真,則停止是最后一個樣本。否則,不包括在內(nèi)。默認(rèn)值為True。
# retstep:如果為真,返回(樣本,步驟),其中步長是樣本之間的間距 → 輸出為一個包含2個元素的元祖,第一個元素為array,第二個為步長實際值
ar1 = np.linspace(2.0, 3.0, num=5)
ar2 = np.linspace(2.0, 3.0, num=5, endpoint=False)
ar3 = np.linspace(2.0, 3.0, num=5, retstep=True)
print(ar1,type(ar1))
print(ar2)
print(ar3,type(ar3))

創(chuàng)建數(shù)組:zeros()/zeros_like()/ones()/ones_like()

# numpy.zeros(shape, dtype=float, order='C'):返回給定形狀和類型的新數(shù)組,用零填充。
# shape:數(shù)組緯度,二維以上需要用(),且輸入?yún)?shù)為整數(shù)
# dtype:數(shù)據(jù)類型,默認(rèn)numpy.float64
# order:是否在存儲器中以C或Fortran連續(xù)(按行或列方式)存儲多維數(shù)據(jù)。
ar1 = np.zeros(5)  
ar2 = np.zeros((2,2), dtype = np.int)
print(ar1,ar1.dtype)
print(ar2,ar2.dtype)
print('------')
# zeros_like :返回具有與給定數(shù)組相同的形狀和類型的零數(shù)組,這里ar4根據(jù)ar3的形狀和dtype創(chuàng)建一個全0的數(shù)組
ar3 = np.array([list(range(5)),list(range(5,10))])
ar4 = np.zeros_like(ar3)
print(ar3)
print(ar4)
print('------')
# ones()/ones_like()和zeros()/zeros_like()一樣,只是填充為1
ar5 = np.ones(9)
ar6 = np.ones((2,3,4))
ar7 = np.ones_like(ar3)
print(ar5)
print(ar6)
print(ar7)

創(chuàng)建數(shù)組:eye()

#創(chuàng)建一個正方的N*N的單位矩陣,對角線值為1,其余為0
print(np.eye(5))

ndarray的數(shù)據(jù)類型

bool 用一個字節(jié)存儲的布爾類型(True或False)

inti 由所在平臺決定其大小的整數(shù)(一般為int32或int64)

int8 一個字節(jié)大小,-128 至 127

int16 整數(shù),-32768 至 32767

int32 整數(shù),-2 ** 31 至 2 ** 32 -1

int64 整數(shù),-2 ** 63 至 2 ** 63 - 1

uint8 無符號整數(shù),0 至 255

uint16 無符號整數(shù),0 至 65535

uint32 無符號整數(shù),0 至 2 ** 32 - 1

uint64 無符號整數(shù),0 至 2 ** 64 - 1

float16 半精度浮點數(shù):16位,正負(fù)號1位,指數(shù)5位,精度10位

float32 單精度浮點數(shù):32位,正負(fù)號1位,指數(shù)8位,精度23位

float64或float 雙精度浮點數(shù):64位,正負(fù)號1位,指數(shù)11位,精度52位

complex64 復(fù)數(shù),分別用兩個32位浮點數(shù)表示實部和虛部

complex128或complex 復(fù)數(shù),分別用兩個64位浮點數(shù)表示實部和虛部

Numpy通用函數(shù)

基本操作

# 數(shù)組形狀:.T/.reshape()/.resize()
# .T方法:轉(zhuǎn)置,例如原shape為(3,4)/(2,3,4),轉(zhuǎn)置結(jié)果為(4,3)/(4,3,2) → 所以一維數(shù)組轉(zhuǎn)置后結(jié)果不變
ar1 = np.arange(10)
ar2 = np.ones((5,2))
print(ar1,'\n',ar1.T)
print(ar2,'\n',ar2.T)
print('------')
# numpy.reshape(a, newshape, order='C'):為數(shù)組提供新形狀,而不更改其數(shù)據(jù),所以元素數(shù)量需要一致!!
ar3 = ar1.reshape(2,5)     # 用法1:直接將已有數(shù)組改變形狀             
ar4 = np.zeros((4,6)).reshape(3,8)   # 用法2:生成數(shù)組后直接改變形狀
ar5 = np.reshape(np.arange(12),(3,4))   # 用法3:參數(shù)內(nèi)添加數(shù)組,目標(biāo)形狀
print(ar1,'\n',ar3)
print(ar4)
print(ar5)
print('------')
# numpy.resize(a, new_shape):返回具有指定形狀的新數(shù)組,如有必要可重復(fù)填充所需數(shù)量的元素。
ar6 = np.resize(np.arange(5),(3,4))
print(ar6)
注意了:.T/.reshape()/.resize()都是生成新的數(shù)組?。?!

數(shù)組的復(fù)制

# 回憶python的賦值邏輯:指向內(nèi)存中生成的一個值 → 這里ar1和ar2指向同一個值,所以ar1改變,ar2一起改變
ar1 = np.arange(10)
ar2 = ar1
print(ar2 is ar1)
ar1[2] = 9
print(ar1,ar2)
# copy方法生成數(shù)組及其數(shù)據(jù)的完整拷貝
ar3 = ar1.copy()
print(ar3 is ar1)
ar1[0] = 9
print(ar1,ar3)
再次提醒:.T/.reshape()/.resize()都是生成新的數(shù)組?。?!

數(shù)組類型轉(zhuǎn)換:.astype()

# 可以在參數(shù)位置設(shè)置數(shù)組類型
ar1 = np.arange(10,dtype=float)
print(ar1,ar1.dtype)
# a.astype():轉(zhuǎn)換數(shù)組類型
ar2 = ar1.astype(np.int32)
print(ar2,ar2.dtype)
print(ar1,ar1.dtype)
注意:養(yǎng)成好習(xí)慣,數(shù)組類型用np.int32,而不是直接int32數(shù)組

數(shù)組堆疊

# numpy.hstack(tup):水平(按列順序)堆疊數(shù)組
a = np.arange(5)    # a為一維數(shù)組,5個元素
b = np.arange(5,9) # b為一維數(shù)組,4個元素
ar1 = np.hstack((a,b))  # 注意:((a,b)),這里形狀可以不一樣
print(a,a.shape)
print(b,b.shape)
print(ar1,ar1.shape)
a = np.array([[1],[2],[3]])   # a為二維數(shù)組,3行1列
b = np.array([['a'],['b'],['c']])  # b為二維數(shù)組,3行1列
ar2 = np.hstack((a,b))  # 注意:((a,b)),這里形狀必須一樣
print(a,a.shape)
print(b,b.shape)
print(ar2,ar2.shape)
# numpy.vstack(tup):垂直(按列順序)堆疊數(shù)組
a = np.arange(5)    
b = np.arange(5,10)
ar1 = np.vstack((a,b))
print(a,a.shape)
print(b,b.shape)
print(ar1,ar1.shape)
a = np.array([[1],[2],[3]])   
b = np.array([['a'],['b'],['c'],['d']])   
ar2 = np.vstack((a,b))  # 這里形狀可以不一樣
print(a,a.shape)
print(b,b.shape)
print(ar2,ar2.shape)
# numpy.stack(arrays, axis=0):沿著新軸連接數(shù)組的序列,形狀必須一樣!
# 重點解釋axis參數(shù)的意思,假設(shè)兩個數(shù)組[1 2 3]和[4 5 6],shape均為(3,0)
# axis=0:[[1 2 3] [4 5 6]],shape為(2,3)
# axis=1:[[1 4] [2 5] [3 6]],shape為(3,2)
a = np.arange(5)    
b = np.arange(5,10)
ar1 = np.stack((a,b))
ar2 = np.stack((a,b),axis = 1)
print(a,a.shape)
print(b,b.shape)
print(ar1,ar1.shape)
print(ar2,ar2.shape)

數(shù)組拆分

# numpy.hsplit(ary, indices_or_sections):將數(shù)組水平(逐列)拆分為多個子數(shù)組 → 按列拆分
# 輸出結(jié)果為列表,列表中元素為數(shù)組
ar = np.arange(16).reshape(4,4)
ar1 = np.hsplit(ar,2)
print(ar)
print(ar1,type(ar1))
# numpy.vsplit(ary, indices_or_sections)::將數(shù)組垂直(行方向)拆分為多個子數(shù)組 → 按行拆
ar2 = np.vsplit(ar,4)
print(ar2,type(ar2))

數(shù)組簡單運算

# 與標(biāo)量的運算
ar = np.arange(6).reshape(2,3)
print(ar + 10)   # 加法
print(ar * 2)   # 乘法
print(1 / (ar+1))  # 除法
print(ar ** 0.5)  # 冪
# 常用函數(shù)
print(ar.mean())  # 求平均值
print(ar.max())  # 求最大值
print(ar.min())  # 求最小值
print(ar.std())  # 求標(biāo)準(zhǔn)差
print(ar.var())  # 求方差
print(ar.sum(), np.sum(ar,axis = 0))  # 求和,np.sum() → axis為0,按列求和;axis為1,按行求和
print(np.sort(np.array([1,4,3,2,5,6])))  # 排序

Numpy索引及切片

核心:基本索引及切片 / 布爾型索引及切片
# 一維數(shù)組索引及切片
ar = np.arange(20)
print(ar)
print(ar[4])
print(ar[3:6])
# 二維數(shù)組索引及切片
ar = np.arange(16).reshape(4,4)
print(ar, '數(shù)組軸數(shù)為%i' %ar.ndim)   # 4*4的數(shù)組
print(ar[2],  '數(shù)組軸數(shù)為%i' %ar[2].ndim)  # 切片為下一維度的一個元素,所以是一維數(shù)組
print(ar[2][1]) # 二次索引,得到一維數(shù)組中的一個值
print(ar[1:3],  '數(shù)組軸數(shù)為%i' %ar[1:3].ndim)  # 切片為兩個一維數(shù)組組成的二維數(shù)組
print(ar[2,2])  # 切片數(shù)組中的第三行第三列 → 10
print(ar[:2,1:])  # 切片數(shù)組中的1,2行、2,3,4列 → 二維數(shù)組
# **三維數(shù)組索引及切片
ar = np.arange(8).reshape(2,2,2)
print(ar, '數(shù)組軸數(shù)為%i' %ar.ndim)   # 2*2*2的數(shù)組
print(ar[0],  '數(shù)組軸數(shù)為%i' %ar[0].ndim)  # 三維數(shù)組的下一個維度的第一個元素 → 一個二維數(shù)組
print(ar[0][0],  '數(shù)組軸數(shù)為%i' %ar[0][0].ndim)  # 三維數(shù)組的下一個維度的第一個元素下的第一個元素 → 一個一維數(shù)組
print(ar[0][0][1],  '數(shù)組軸數(shù)為%i' %ar[0][0][1].ndim)  

布爾型索引及切片

# 布爾型索引:以布爾型的矩陣去做篩選
ar = np.arange(12).reshape(3,4)
i = np.array([True,False,True])
j = np.array([True,True,False,False])
print(ar)
print(i)
print(j)
print(ar[i,:])  # 在第一維度做判斷,只保留True,這里第一維度就是行,ar[i,:] = ar[i](簡單書寫格式)
print(ar[:,j])  # 在第二維度做判斷,這里如果ar[:,i]會有警告,因為i是3個元素,而ar在列上有4個
m = ar > 5
print(m)  # 這里m是一個判斷矩陣
print(ar[m])  # 用m判斷矩陣去篩選ar數(shù)組中>5的元素 → 重點!后面的pandas判斷方式原理就來自此處

數(shù)組索引及切片的值更改、復(fù)制

# 一個標(biāo)量賦值給一個索引/切片時,會自動改變/傳播原始數(shù)組
ar = np.arange(10)
print(ar)
ar[5] = 100
ar[7:9] = 200
print(ar)
# 復(fù)制
ar = np.arange(10)
b = ar.copy()
b[7:9] = 200
print(ar)
print(b)

Numpy隨機數(shù)

numpy.random包含多種概率分布的隨機樣本,是數(shù)據(jù)分析輔助的重點工具之一
# 隨機數(shù)生成
# 生成一個標(biāo)準(zhǔn)正太分布的4*4樣本值
samples = np.random.normal(size=(4,4))
print(samples)

均勻分布

# numpy.random.rand(d0, d1, ..., dn):生成一個[0,1)之間的隨機浮點數(shù)或N維浮點數(shù)組 
import matplotlib.pyplot as plt  # 導(dǎo)入matplotlib模塊,用于圖表輔助分析
%matplotlib inline 
# 魔法函數(shù),每次運行自動生成圖表
# 生成一個隨機浮點數(shù)
a = np.random.rand()
print(a,type(a))  

# 生成形狀為4的一維數(shù)組
b = np.random.rand(4)
print(b,type(b))  

# 生成形狀為2*3的二維數(shù)組,注意這里不是((2,3))
c = np.random.rand(2,3)
print(c,type(c))  

# 生成1000個均勻分布的樣本值
samples1 = np.random.rand(1000)
samples2 = np.random.rand(1000)
plt.scatter(samples1,samples2)

正態(tài)分布

#  numpy.random.randn(d0, d1, ..., dn):生成一個浮點數(shù)或N維浮點數(shù)組 

# randn和rand的參數(shù)用法一樣
# 生成1000個正太的樣本值
samples1 = np.random.randn(1000)
samples2 = np.random.randn(1000)
plt.scatter(samples1,samples2)
# numpy.random.randint(low, high=None, size=None, dtype='l'):生成一個整數(shù)或N維整數(shù)數(shù)組
# 若high不為None時,取[low,high)之間隨機整數(shù),否則取值[0,low)之間隨機整數(shù),且high必須大于low 
# dtype參數(shù):只能是int類型  

# low=2:生成1個[0,2)之間隨機整數(shù) 
print(np.random.randint(2))
 
# low=2,size=5 :生成5個[0,2)之間隨機整數(shù)
print(np.random.randint(2,size=5))

# low=2,high=6,size=5:生成5個[2,6)之間隨機整數(shù)  
print(np.random.randint(2,6,size=5))

# low=2,size=(2,3):生成一個2x3整數(shù)數(shù)組,取數(shù)范圍:[0,2)隨機整數(shù) 
print(np.random.randint(2,size=(2,3)))

# low=2,high=6,size=(2,3):生成一個2*3整數(shù)數(shù)組,取值范圍:[2,6)隨機整數(shù) 
print(np.random.randint(2,6,(2,3)))

Numpy數(shù)據(jù)的輸入輸出

numpy讀取/寫入數(shù)組數(shù)據(jù)、文本數(shù)據(jù)
# 存儲數(shù)組數(shù)據(jù) .npy文件
import os
os.chdir('C:/Users/Hjx/Desktop/')

ar = np.random.rand(5,5)
print(ar)
np.save('arraydata.npy', ar)
# 也可以直接 np.save('C:/Users/Hjx/Desktop/arraydata.npy', ar)
# 讀取數(shù)組數(shù)據(jù) .npy文件

ar_load =np.load('arraydata.npy')
print(ar_load)
# 也可以直接 np.load('C:/Users/Hjx/Desktop/arraydata.npy')
# 存儲/讀取文本文件

# np.savetxt(fname, X, fmt='%.18e', delimiter=' ', newline='\n', header='', footer='', comments='# '):存儲為文本txt文件
ar = np.random.rand(5,5)
np.savetxt('array.txt',ar, delimiter=',')

ar_loadtxt = np.loadtxt('array.txt', delimiter=',')
print(ar_loadtxt)
# 也可以直接 np.loadtxt('C:/Users/Hjx/Desktop/array.txt')
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容