學(xué)習(xí)計劃:第03周(20190729-20190804)

知識點(diǎn):數(shù)據(jù)分布

  • 正態(tài)分布

正態(tài)分布(英語:normal distribution)又名高斯分布(英語:Gaussian distribution),是一個非常常見的連續(xù)概率分布。正態(tài)分布在統(tǒng)計學(xué)上十分重要,經(jīng)常用在自然和社會科學(xué)來代表一個不明的隨機(jī)變量。

一般正態(tài)分布是在標(biāo)準(zhǔn)正態(tài)分布基礎(chǔ)上平移或縮放得到的。如縮放\sigma(標(biāo)準(zhǔn)差)后平移\mu(期望)得到概率密度函數(shù)公式為:

正態(tài)分布的概率密度函數(shù)曲線呈鐘形,因此人們又經(jīng)常稱之為鐘形曲線(類似于寺廟里的大鐘,因此得名)。我們通常所說的標(biāo)準(zhǔn)正態(tài)分布是位置參數(shù)\mu =0,\sigma=1的正態(tài)分布。

正態(tài)分布像一只倒扣的鐘。兩頭低,中間高,左右對稱。大部分?jǐn)?shù)據(jù)集中在平均值,小部分在兩端。實(shí)際上人的身高就是符合正態(tài)分布的。

神奇的是,正態(tài)分布是普遍規(guī)律。不管是人的身高,手臂長度,肺活量,還是他們的考試成績,都符合正態(tài)分布。

符合正態(tài)分布的商業(yè)現(xiàn)象也很多。大部分員工的業(yè)績,都是一般的,做得特別好的非常少,做得特別差的也不多見。這就是為什么績效管理領(lǐng)域中平均水平占絕大數(shù)。

大部分人的智商是正常的,正態(tài)分布有點(diǎn)像2/8原則。少數(shù)像愛伊斯坦老爺子這樣的智商太超常了

正態(tài)分布中一些值得注意的量:

密度函數(shù)關(guān)于平均值對稱

平均值是它的眾數(shù)(statistical mode)以及中位數(shù)(median)

函數(shù)曲線下68.268949%的面積在平均值左右的一個標(biāo)準(zhǔn)差范圍內(nèi)

95.449974%的面積在平均值左右兩個標(biāo)準(zhǔn)差2σ的范圍內(nèi)

99.730020%的面積在平均值左右三個標(biāo)準(zhǔn)差3σ的范圍內(nèi)

99.993666%的面積在平均值左右四個標(biāo)準(zhǔn)差4σ的范圍內(nèi)

σ描述正態(tài)分布資料數(shù)據(jù)分布的離散程度,σ越大,數(shù)據(jù)分布越分散,σ越小,數(shù)據(jù)分布越集中。也稱為是正態(tài)分布的形狀參數(shù),σ越大,曲線越扁平,反之,σ越小,曲線越瘦高。

  • 伯努利分布

伯努利分布亦稱“零一分布”、“兩點(diǎn)分布”。

如果隨機(jī)變量X只取0和1兩個值,并且相應(yīng)的概率為:

則稱隨機(jī)變量X服從參數(shù)為p的伯努利分布,若令q=1一p,則X的概率函數(shù)可寫為:

  • 二項(xiàng)分布

二項(xiàng)分布就是重復(fù)n次獨(dú)立的伯努利試驗(yàn)。

舉個實(shí)例,最簡單的拋硬幣試驗(yàn)就是伯努利試驗(yàn),在一次試驗(yàn)中硬幣要么正面朝上,要么反面朝上,每次正面朝上的概率都一樣p=0.5,且每次拋硬幣的事件相互獨(dú)立,即每次正面朝上的概率不受其他試驗(yàn)的影響。如果獨(dú)立重復(fù)拋n=10次硬幣,正面朝上的次數(shù)k可能為0,1,2,3,4,5,6,7,8,9,10中的任何一個,那么k顯然是一個隨機(jī)變量,這里就稱隨機(jī)變量k服從二項(xiàng)分布。

n次拋硬幣中恰好出現(xiàn)k次的概率為

P(X=k) = C(n,k) * pk*(1-p)n-k

記作X~B(n,p)。

總結(jié):伯努利分布、兩點(diǎn)分布、0-1分布這三種分布是同一個分布的不同名稱,又都是二項(xiàng)分布在n=1時的特例。

  • 泊松分布

公式推導(dǎo)(馬同學(xué)高等數(shù)學(xué)強(qiáng)推?。。?/h3>

泊松分布的理解:

日常生活中,大量事件是有固定頻率的:超市平均每天銷售包奶粉;網(wǎng)站平均每分鐘有次訪問;

特點(diǎn)就是我們可以預(yù)估這些事件的總數(shù),但沒法知道具體的發(fā)生時間。已知平均每分鐘有2次訪問,下分鐘有幾次訪問是無法知道的。

泊松分布就是描述某段時間內(nèi),事件具體的發(fā)生概率。

一個事件在一段時間內(nèi)隨機(jī)發(fā)生,其服從泊松分布的條件為:

(1)將該時間段無限分隔成很多個小的時間段,在這個小的時間段內(nèi),事件發(fā)生的概率非常小,不發(fā)生的概率非常大。

(2)在每個小的時間段內(nèi),事件發(fā)生的概率是穩(wěn)定的,且與小的時間段的長度成正比。

(3)該事件在不同的小時間段里,發(fā)生與否相互獨(dú)立。

  • 均勻分布

  • 伽馬函數(shù)

這個可以形象理解為用一個伽馬刀,對x動了一刀,于是指數(shù)為x-1,動完刀需要扶著梯子(-t)才能走下來。這樣,就記住了關(guān)鍵的t^{x-1},?t。

性質(zhì):


  • 卡方分布



  • Beta分布

Beta分布是一個定義在[0,1]區(qū)間上的連續(xù)概率分布族,它有兩個正值參數(shù),稱為形狀參數(shù),一般用\alpha\beta表示。在貝葉斯推斷中,Beta分布是Bernoulli、二項(xiàng)分布、負(fù)二項(xiàng)分布和幾何分布的共軛先驗(yàn)分布。Beta分布的概率密度函數(shù)形式如下:


這里的表示gamma函數(shù)。

Beta分布的均值是:

\frac{\alpha}{\alpha+\beta}

方差是:

\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}

Beta分布可以看作一個概率的概率分布,當(dāng)你不知道一個東西的具體概率是多少時,它可以給出所有概率出現(xiàn)的可能性大小。Beta分布是一個連續(xù)分布,由于它描述概率p的分布,因此其取值范圍為0到1。

??

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容