lesson2 賽馬數(shù)據(jù)-正態(tài)分布(4.7號(hào))
代碼:
#賽馬數(shù)據(jù)可視化 from pandas import read_csv import numpy as np import pandas as pd import matplotlib.pyplot as plt import matplotlib.mlab as lab
#讀取文件 stakes_data= read_csv('lesson2/stakes.csv')
#查看數(shù)據(jù)類型 stakes_data.dtypes
#查看數(shù)據(jù)前5行 stakes_data.head(5)
#查看一共多少行 len(stakes_data) #89
#將數(shù)據(jù)框中的time列存入一個(gè)變量‘stakes',方便之后調(diào)用 stakes= stakes_data['time']
#計(jì)算平均值,標(biāo)注差 mean = stakes.mean() std = stakes.std() print('均值:'+ str(mean)) print('標(biāo)準(zhǔn)差:'+ str(std))
#繪制密度函數(shù)曲線 stakes.min() #146.0 stakes.max() #153.2
#設(shè)置起始值、結(jié)束值和步長(zhǎng) #Q1:最小值-1,最大值+1?Q2:步長(zhǎng)選擇的規(guī)則是? x=np.arange(145,155,0.1) y=mlab.normpdf(x,mean,std) plt.plot(x,y)
#繪制直方圖 plt.hist(stakes,bins=10,color='orange',rwidth=0.9,normed=True) plt.title('Stakes Distribution') plt.xlabel('Time') plt.ylabel('Probability') plt.show
正態(tài)分布圖:
![賽馬冠軍用時(shí)數(shù)據(jù)]

數(shù)據(jù)觀察:
1.基本數(shù)據(jù)
數(shù)據(jù)量:89
最小值:146.0
最大值:153.2
均值:149.221011236
標(biāo)準(zhǔn)差:1.62781647177
2.正態(tài)分布
(估68.2%) 均值+-1std=147.6-150.8 大多數(shù)選手的奪冠成績(jī)分布在此范圍內(nèi)
(估27.2%) 均值+-2std = 146-152.6 如果一個(gè)選手的用時(shí)能進(jìn)入147.6-146之間,他奪冠的可能性就大大增加,
(估4.2%) 均值+-3std=144.4-153.8 目前還無(wú)散落在這個(gè)區(qū)域的數(shù)值,說(shuō)明賽馬用時(shí)的數(shù)據(jù)相對(duì)比較穩(wěn)定,較少有意外的情況出現(xiàn)。