正態(tài)分布2018-04-17

正態(tài)分布

上述分布都是離散概率分布,當(dāng)隨機變量是連續(xù)型時,情況就完全不一樣了。因為離散概率的本質(zhì)是求x取某個特定值的概率,而連續(xù)隨機變量不行,它的取值是可以無限分割的,它取某個值時概率近似于0。連續(xù)變量是隨機變量在某個區(qū)間內(nèi)取值的概率,此時的概率函數(shù)叫做概率密度函數(shù)。

正態(tài)概率分布是連續(xù)型隨機變量中最重要的分布。世界上絕大部分的分布都屬于正態(tài)分布,人的身高體重、考試成績、降雨量等都近似服從。

正態(tài)分布如同一條鐘形曲線。中間高,兩邊低,左右對稱。想象身高體重、考試成績,是否都呈現(xiàn)這一類分布態(tài)勢:大部分數(shù)據(jù)集中在某處,小部分往兩端傾斜。


正態(tài)概率密度函數(shù)為:

是不是看得頭暈了?u代表均值,σ代表標準差,兩者不同的取值將會造成不同形狀的正態(tài)分布。均值表示正態(tài)分布的左右偏移,標準差決定曲線的寬度和平坦,標準差越大曲線越平坦。

以前介紹過一個正態(tài)分布的經(jīng)驗法則:

正態(tài)隨機變量有69.3%的值在均值加減一個標準差的范圍內(nèi),95.4%的值在兩個標準差內(nèi),99.7%的值在三個標準差內(nèi)。這條經(jīng)驗法則可以幫助我們快速計算數(shù)據(jù)的大體分布。


均值u=0,標準差σ=1的正態(tài)分布叫做標準正態(tài)分布。它的隨機變量用z表示,它是推斷統(tǒng)計的基礎(chǔ)。將均值和標準差代入正態(tài)概率密度函數(shù),得到一個簡化的公式:

現(xiàn)在可以用簡化的公式計算概率密度了。首先學(xué)習(xí)一個新的函數(shù)叫累計分布函數(shù),它是概率密度函數(shù)的積分。用P(X<=x)表示隨機變量小于或者等于某個數(shù)值的概率,F(xiàn)(x) = P(X<=x)。


曲線就是概率密度函數(shù),當(dāng)x取某個值時,曲線上f(x)點的數(shù)值即表示隨機變量在對應(yīng)的x點值的取值概率,曲線與X軸相交的陰影面積就是累計分布函數(shù)。我們不妨把概率密度函數(shù)按其名字簡單理解成「密度」,畢竟連續(xù)變量只有在區(qū)間中才有計算的意義,于是密度函數(shù)充當(dāng)了輔助計算的角色。分析中我們更多實用累計分布函數(shù)。

標準正態(tài)分布中,給定一個值z,可以計算隨機變量z小于等于某一個值的概率;z在兩個值之間的概率;以及z大于等于一個值的概率。這三種計算都用到累計分布函數(shù),分別記作P(z<=x),P(x1<=z<=x2),P(z>=x)。

首先計算z小于等于1的概率,即P(z<=1)。由excel 的函數(shù)NORM.DIST(1,0,1,TRUE)求得值為0.8413。于是P(z<=1)=0.8413。同理,P(z>1) = 1-P(z<=1) = 0.1586。

若要計算z在區(qū)間-1~1.25的概率,即P(-1<=z<=1.25)??梢詫⑵洳鸾鉃楣剑篜(-1<=z<=1.25) = P(z<=1.25) - P(z<=-1) = 0.735。

如果大家在公式轉(zhuǎn)換中有困惑,不妨結(jié)合上面的陰影圖看??孔蟮年幱凹磟小于等于0.8時(目測)的概率,如果我們要算0~0.8之間的概率呢?就是把z<=0的那一半給挖掉,非常粗暴的算法。

到了這里大家可能發(fā)覺,在正態(tài)分布的計算中,不論求哪一類區(qū)間,我們都是先轉(zhuǎn)換成z小于等于某個值先計算。這是一個潛移默化的規(guī)則,因為早期正態(tài)概率的計算都要用到標準正態(tài)概率表,它以z小于等于作查詢標準?,F(xiàn)在雖然計算資源已經(jīng)大大豐富,但是這個習(xí)慣還是保留了下來。

之所以強調(diào)標準正態(tài)分布,是因為所有的正態(tài)分布概率都可以利用標準正態(tài)分布計算。當(dāng)我們具有一個任意均值的u和標準差σ,都能將其轉(zhuǎn)換成標準狀態(tài)分布。

現(xiàn)在有一個u=10和σ=2的正態(tài)隨機變量,求x在10與14之間的概率是多少?

當(dāng)x=10時,z=(10-10)/2=2。當(dāng)x=14時,z=(14-10)/2=2。于是x在10和14之間的概率等價于標準正態(tài)分布中0和2之間的概率。計算P(0<=z<=2) =P(z<=2) - P(z<=0) =0.4772。

現(xiàn)在是最后一個運營活動了,不再是抽獎,而是最終贈送獎品的環(huán)節(jié)。已知獎品的保質(zhì)期滿足正態(tài)分布,均值90天,標準差5天。為了考慮用戶體驗,想知道獎品70天以內(nèi)就壞的概率是多少?

當(dāng)x=70時,有z=(70-90)/5 = -4。p(z<=-4)=0.003%。概率非常小,可以忽略不計,所以產(chǎn)品質(zhì)量杠杠的。經(jīng)歷了那么多活動,老板終于可以松一口氣了。

在概率分布中還有一個概念叫正態(tài)近似。當(dāng)試驗次數(shù)很大時,二項分布可以近似于正態(tài)分布,泊松分布也有相似的情況,大家有興趣可以去了解,這是一種簡便方法,不過工作中現(xiàn)在都是計算機了,這點反而不重要了。

了解完各類分布后,我們將進入最后的環(huán)節(jié),假設(shè)檢驗,它是基于概率的理論,數(shù)據(jù)分析中的AB測試,就是其最常見的應(yīng)用。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 按照用途分類出以下統(tǒng)計函數(shù): AVEDEV 用途:返回一組數(shù)據(jù)與其平均值的絕對偏差的平均值,該函數(shù)可以評測數(shù)據(jù)(例...
    四方院祭司閱讀 3,079評論 0 3
  • 查看原文 1 簡介 Deep Learning最簡單的一種方法是利用人工神經(jīng)網(wǎng)絡(luò)的特點,人工神經(jīng)網(wǎng)絡(luò)(ANN)本身...
    JinkeyAI閱讀 7,101評論 0 4
  • 擁有這本《遇見未知的自己》已經(jīng)幾個月了,可是一直沒有時間靜下心來好好閱讀,就決定利用春節(jié)的時間在家來靜靜的品讀。 ...
    唇印象Merry姐姐閱讀 555評論 2 1
  • 第四十七章 回病房時,平生接到了江林的電話。為了不讓舅舅有心里負擔(dān),關(guān)于工作的事,平生不想帶到病房里去,便讓余景灝...
    星如雨雨雨閱讀 275評論 0 0
  • onchange事件用于檢測值的變化。根據(jù)變化執(zhí)行指定的腳本。 支持onchange事件的html標簽有:inpu...
    報告老師閱讀 607評論 0 0

友情鏈接更多精彩內(nèi)容