在Tiger講這節(jié)課前沒(méi)有預(yù)習(xí),以前看的一些概念都有些想不起來(lái)了。在這里先讓我啰嗦地復(fù)習(xí)一下重要的概念們。
隨機(jī)變量以及隨機(jī)變量的分類
以下概念摘自《漫畫(huà)統(tǒng)計(jì)學(xué)》。
隨機(jī)變量:一個(gè)隨機(jī)變量是指一個(gè)隨機(jī)實(shí)驗(yàn)的數(shù)值結(jié)果,記為X。例如一批產(chǎn)品中的次品個(gè)數(shù)。
隨機(jī)變量的兩種類型:離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。
離散型隨機(jī)變量:隨機(jī)變量的所有可能取值都可以一一列舉出來(lái)。
連續(xù)型隨機(jī)變量:隨機(jī)變量的所有可能取值充滿某一區(qū)間,無(wú)法一一列舉。
離散型隨機(jī)變量的概率分布:離散型隨機(jī)變量X的一切可能值以及它取相應(yīng)值的概率二者一起,成為X的概率分布。
連續(xù)型隨機(jī)變量的概率分布:通過(guò)概率密度函數(shù)的方式。正態(tài)分布就是常見(jiàn)的連續(xù)型分布。
幾點(diǎn)要注意的:
- 如下圖所示,任意兩條與x軸垂直的線段f(a),f(b)與x軸以及曲線所圍成的面積表示隨機(jī)變量X取值在a和b之間的概率P(a≤X≤b)
- 密度曲線在a點(diǎn)處的高度并不反映X取a值的概率,但是這個(gè)高度越大,則X取a附近的值的概率就越大。

正態(tài)分布作業(yè)疑惑的部分
- 下面兩行代碼不明白:
%matplotlib inline
%config InlineBackend.figure_format = 'retina'
搜索的結(jié)果是:
要直接在 notebook 中呈現(xiàn)圖形,應(yīng)將內(nèi)聯(lián)后端與命令 %matplotlib inline 一起使用。
在分辨率較高的屏幕(例如 Retina 顯示屏)上,notebook 中的默認(rèn)圖像可能會(huì)顯得模糊。
可以在 %matplotlib inline 之后使用 %config InlineBackend.figure_format = 'retina' 來(lái)呈現(xiàn)分辨率較高的圖像。
- 賽馬比賽時(shí)間的作業(yè)關(guān)于arange中的step的不同取值(1和0.1)對(duì)比。
#概率密度函數(shù)
def normfun(x, mu, sigma):
pdf = np.exp(-((x - mu)**2) / (2* sigma**2)) / (sigma * np.sqrt(2*np.pi))
return pdf
#數(shù)據(jù)可視化
x = np.arange(145,154,1)
print(x)
y = normfun(x, mean, std)
plt.plot(x,y)
plt.hist(stake, bins=10, rwidth=0.9, normed=True)
plt.title('Stake distribution')
plt.xlabel('Stake time')
plt.ylabel('Probability')
plt.show()

#概率密度函數(shù)
def normfun(x, mu, sigma):
pdf = np.exp(-((x - mu)**2) / (2* sigma**2)) / (sigma * np.sqrt(2*np.pi))
return pdf
#數(shù)據(jù)可視化
x = np.arange(145,154,0.1)
print(x)
y = normfun(x, mean, std)
plt.plot(x,y)
plt.hist(stake, bins=10, rwidth=0.9, normed=True)
plt.title('Stake distribution')
plt.xlabel('Stake time')
plt.ylabel('Probability')
plt.show()

可以看出step取1時(shí)曲線很不平滑,找了好久原因才發(fā)現(xiàn)是因?yàn)閟tep取的太大了。arange函數(shù)用于創(chuàng)建等差數(shù)組。用print(x)可以看出兩個(gè)等差數(shù)組的區(qū)別,這也是很好的調(diào)試手段。
- 雖然這次還是用上次的hist函數(shù),但是參數(shù)多了個(gè)"normed=True"。通過(guò)對(duì)比發(fā)現(xiàn),加了這個(gè)參數(shù)柱子的高度由原來(lái)的頻數(shù)變成了概率。具體這個(gè)值怎么計(jì)算的還不明白。下面這段話可以給我們一些啟示,摘自Basic Data Plotting with Matplotlib Part 3: Histograms。
let’s try plotting things as a probability distribution instead of just frequency counts. This will let have matplotlib integrate the total area of the histogram (this is just the total number in the array we feed matplotlib), and scale the values appropriately so that rather than showing how many numbers in each bin, we instead have a probability of finding a number in that bin. The total area of the histogram in this curve will be 1.
plt.hist(gaussian_numbers, bins=20, normed=True)
- 感覺(jué)作業(yè)中最難的是對(duì)于數(shù)據(jù)的解讀,也許就是Tiger所說(shuō)的數(shù)據(jù)思維吧。自己在這方面還很欠缺。
正態(tài)分布的應(yīng)用
學(xué)了正態(tài)分布有什么用處呢?我看到了在質(zhì)量管理中的應(yīng)用,摘自對(duì)正態(tài)分布應(yīng)該如何理解和應(yīng)用。
生產(chǎn)與科學(xué)實(shí)驗(yàn)中很多隨機(jī)變量的分布都可以近似地用正態(tài)分布來(lái)描述。例如,在生產(chǎn)條件不變的情況下,產(chǎn)品的大多數(shù)屬性和質(zhì)量指標(biāo),如強(qiáng)力、抗壓強(qiáng)度、口徑、長(zhǎng)度、光潔度、導(dǎo)電率等,都可以近似地用正態(tài)分布來(lái)描述;或者換句話說(shuō),如果生產(chǎn)條件沒(méi)有出現(xiàn)變異,那么這些屬性和質(zhì)量指標(biāo)的分布應(yīng)該是正太分布或者是近似的正太分布。由此,我們就可以抽取一些樣品(樣本),基于樣品的實(shí)際數(shù)據(jù),用統(tǒng)計(jì)方法來(lái)推斷所有產(chǎn)品(總體)的屬性或質(zhì)量指標(biāo)是否服從正態(tài)分布。如果不是,則很可能是流程中出現(xiàn)了由特殊原因引起的變異;在進(jìn)行很多質(zhì)量分析之前,我們往往也需要對(duì)質(zhì)量數(shù)據(jù)進(jìn)行檢驗(yàn),看其是否服從正態(tài)分布。
對(duì)正態(tài)分布而言,離均值μ的距離為-3σ~3σ區(qū)域包含了全部數(shù)值的99.7%,因此常用6σ來(lái)代表較高的質(zhì)量水平。