知識點(diǎn):數(shù)據(jù)分布
-
正態(tài)分布
正態(tài)分布(英語:normal distribution)又名高斯分布(英語:Gaussian distribution),是一個非常常見的連續(xù)概率分布。正態(tài)分布在統(tǒng)計學(xué)上十分重要,經(jīng)常用在自然和社會科學(xué)來代表一個不明的隨機(jī)變量。
一般正態(tài)分布是在標(biāo)準(zhǔn)正態(tài)分布基礎(chǔ)上平移或縮放得到的。如縮放
(標(biāo)準(zhǔn)差)后平移
(期望)得到概率密度函數(shù)公式為:

正態(tài)分布的概率密度函數(shù)曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線(類似于寺廟里的大鐘,因此得名)。我們通常所說的標(biāo)準(zhǔn)正態(tài)分布是位置參數(shù)
,
的正態(tài)分布。
正態(tài)分布像一只倒扣的鐘。兩頭低,中間高,左右對稱。大部分?jǐn)?shù)據(jù)集中在平均值,小部分在兩端。實(shí)際上人的身高就是符合正態(tài)分布的。

神奇的是,正態(tài)分布是普遍規(guī)律。不管是人的身高,手臂長度,肺活量,還是他們的考試成績,都符合正態(tài)分布。
符合正態(tài)分布的商業(yè)現(xiàn)象也很多。大部分員工的業(yè)績,都是一般的,做得特別好的非常少,做得特別差的也不多見。這就是為什么績效管理領(lǐng)域中平均水平占絕大數(shù)。

大部分人的智商是正常的,正態(tài)分布有點(diǎn)像2/8原則。少數(shù)像愛伊斯坦老爺子這樣的智商太超常了

正態(tài)分布中一些值得注意的量:
密度函數(shù)關(guān)于平均值對稱
平均值是它的眾數(shù)(statistical mode)以及中位數(shù)(median)
函數(shù)曲線下68.268949%的面積在平均值左右的一個標(biāo)準(zhǔn)差范圍內(nèi)
95.449974%的面積在平均值左右兩個標(biāo)準(zhǔn)差2σ的范圍內(nèi)
99.730020%的面積在平均值左右三個標(biāo)準(zhǔn)差3σ的范圍內(nèi)
99.993666%的面積在平均值左右四個標(biāo)準(zhǔn)差4σ的范圍內(nèi)
σ描述正態(tài)分布資料數(shù)據(jù)分布的離散程度,σ越大,數(shù)據(jù)分布越分散,σ越小,數(shù)據(jù)分布越集中。也稱為是正態(tài)分布的形狀參數(shù),σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。
-
伯努利分布
伯努利分布亦稱“零一分布”、“兩點(diǎn)分布”。
如果隨機(jī)變量X只取0和1兩個值,并且相應(yīng)的概率為:

則稱隨機(jī)變量X服從參數(shù)為p的伯努利分布,若令q=1一p,則X的概率函數(shù)可寫為:

-
二項(xiàng)分布
二項(xiàng)分布就是重復(fù)n次獨(dú)立的伯努利試驗(yàn)。
舉個實(shí)例,最簡單的拋硬幣試驗(yàn)就是伯努利試驗(yàn),在一次試驗(yàn)中硬幣要么正面朝上,要么反面朝上,每次正面朝上的概率都一樣p=0.5,且每次拋硬幣的事件相互獨(dú)立,即每次正面朝上的概率不受其他試驗(yàn)的影響。如果獨(dú)立重復(fù)拋n=10次硬幣,正面朝上的次數(shù)k可能為0,1,2,3,4,5,6,7,8,9,10中的任何一個,那么k顯然是一個隨機(jī)變量,這里就稱隨機(jī)變量k服從二項(xiàng)分布。
n次拋硬幣中恰好出現(xiàn)k次的概率為
P(X=k) = C(n,k) * pk*(1-p)n-k
記作X~B(n,p)。
總結(jié):伯努利分布、兩點(diǎn)分布、0-1分布這三種分布是同一個分布的不同名稱,又都是二項(xiàng)分布在n=1時的特例。
-
泊松分布
公式推導(dǎo)(馬同學(xué)高等數(shù)學(xué)強(qiáng)推?。。?/h3>
泊松分布的理解:
日常生活中,大量事件是有固定頻率的:超市平均每天銷售包奶粉;網(wǎng)站平均每分鐘有次訪問;
特點(diǎn)就是我們可以預(yù)估這些事件的總數(shù),但沒法知道具體的發(fā)生時間。已知平均每分鐘有2次訪問,下分鐘有幾次訪問是無法知道的。
泊松分布就是描述某段時間內(nèi),事件具體的發(fā)生概率。
一個事件在一段時間內(nèi)隨機(jī)發(fā)生,其服從泊松分布的條件為:
(1)將該時間段無限分隔成很多個小的時間段,在這個小的時間段內(nèi),事件發(fā)生的概率非常小,不發(fā)生的概率非常大。
(2)在每個小的時間段內(nèi),事件發(fā)生的概率是穩(wěn)定的,且與小的時間段的長度成正比。
(3)該事件在不同的小時間段里,發(fā)生與否相互獨(dú)立。
-
均勻分布
-
伽馬函數(shù)
這個可以形象理解為用一個伽馬刀,對x動了一刀,于是指數(shù)為x-1,動完刀需要扶著梯子(-t)才能走下來。這樣,就記住了關(guān)鍵的
,?t。
性質(zhì):
-
卡方分布
-
Beta分布
Beta分布是一個定義在[0,1]區(qū)間上的連續(xù)概率分布族,它有兩個正值參數(shù),稱為形狀參數(shù),一般用
和
表示。在貝葉斯推斷中,Beta分布是Bernoulli、二項(xiàng)分布、負(fù)二項(xiàng)分布和幾何分布的共軛先驗(yàn)分布。Beta分布的概率密度函數(shù)形式如下:

均勻分布

伽馬函數(shù)



卡方分布



Beta分布

這里的表示gamma函數(shù)。
Beta分布的均值是:
方差是:
Beta分布可以看作一個概率的概率分布,當(dāng)你不知道一個東西的具體概率是多少時,它可以給出所有概率出現(xiàn)的可能性大小。Beta分布是一個連續(xù)分布,由于它描述概率p的分布,因此其取值范圍為0到1。

??