2020-08-09

11 概率分布:認(rèn)識現(xiàn)實世界的數(shù)學(xué)模型

隨機變量:把隨機事件可能的結(jié)果抽象成一個數(shù)字,每個數(shù)字對應(yīng)一個概率,這個隨機變化的數(shù)字。

概率分布:把隨機變量所有的結(jié)果和它對應(yīng)的概率全部統(tǒng)計出來

概率分布的作用:通過從整體上描述一個隨機事件的所有可能結(jié)果和對應(yīng)概率分布情況,從總體上把握這件事的基本輪廓。

數(shù)學(xué)家解決問題的方式是抽象

概率分布模型是我們對現(xiàn)實規(guī)律的抽象,正態(tài)分布、冪律分布都是這樣的模型,分別代表一種概率分布規(guī)律。


12 正態(tài)分布:最簡單卻最重要的概率分布

高斯使用到正態(tài)分布計算出谷神星(人類發(fā)現(xiàn)的第一顆矮行星)的運行軌道。

性質(zhì)一:均值就是期望

在正態(tài)分布中,平均值代表隨機事件的價值。

性質(zhì)二:極端值很少

性質(zhì)三:標(biāo)準(zhǔn)差決定胖瘦

eg:電腦開機時間打敗了全國97%的用戶,就是通過正態(tài)分布得到的,隨機抽取一部分用戶的開機數(shù)據(jù),算出均值和標(biāo)準(zhǔn)差,就可以確定出一條正態(tài)分布曲線。

一個標(biāo)準(zhǔn)差覆蓋68.26%的數(shù)據(jù),兩個覆蓋95.44%的數(shù)據(jù),以此類推

不同正態(tài)分布的分析比較:

第一,只有均值不同,能比較好壞

第二,只有標(biāo)準(zhǔn)差不同,能比較波動

eg:男女智商均值相同,但男性智商波動更大,在智商超群和智商堪憂的人中,男性數(shù)量多于女性

第三,均值和標(biāo)準(zhǔn)差都不同,能比較專業(yè)和業(yè)余

專業(yè)的均值更高,標(biāo)準(zhǔn)差更小,業(yè)余則相反。


13 中心極限定理:正態(tài)分布是概率分布的神

(1)合法性:中心極限定理提供保證

中心極限定理核心的數(shù)學(xué)性質(zhì)——大量獨立的隨機變量相加,無論各個隨機變量的分布是怎樣的,它們相加的結(jié)果必定會趨向于正態(tài)分布。換句話說,正態(tài)分布是必然產(chǎn)生的。

中心極限定理是因,正態(tài)分布是果。因為中心極限定理存在,所以正態(tài)分布才必然正確。

正態(tài)分布公式——高斯

中心極限定理——拉普拉斯

(2)正統(tǒng)性:正態(tài)分布建立了一套穩(wěn)定的秩序,就像參照系一樣,對所有的事物施加影響。

在統(tǒng)計學(xué)中,當(dāng)我們不知道某個隨機事件服從什么分布的時候,最常見的方法就是假設(shè)它服從正態(tài)分布,然后再用數(shù)據(jù)驗證。

一方面,是由于正態(tài)分布非常常見,所以假設(shè)一個隨機事件服從正態(tài)分布,比假設(shè)其他分布的成功率更高。

另一方面,是因為正態(tài)分布能像神一樣,給我們指明分析的方向。

eg:如果驗證后發(fā)現(xiàn),這個隨機事件不服從正態(tài)分布,那它就一定不滿足正態(tài)分布背后的中心極限定理。而不滿足中心極限定理,要么是它的影響因素不夠多,要么是各種影響因素不相互獨立,要么是某種影響因素的影響力太大等等……這時候,接下來的研究也就有了明確的方向。

(3)主宰性

第一,正態(tài)分布普遍存在

第二,所有分布不斷疊加后最后都會變成正態(tài)分布

第三,正態(tài)分布是世界的宿命

“熵最大原理”:在一個孤立的系統(tǒng)中,熵總是在不斷增大。

正態(tài)分布是所有已知均值和方差的分布中,信息熵最大的一種分布。


14 冪律分布:給人帶來希望的魔鬼

無標(biāo)度:冪律分布唯一的數(shù)學(xué)特征。

“二八法則”:冪律分布的最直觀表現(xiàn)。

冪律分布

橫坐標(biāo),代表隨機變量的取值;縱坐標(biāo),代表發(fā)生的概率。

在隨機變量中,越小的數(shù)值,出現(xiàn)的概率越大;越大的數(shù)值,出現(xiàn)的概率則越小。

在任何觀測尺度下,冪律分布都呈現(xiàn)同樣的分布特征。

一般的分布都會有個尺度范圍,在這個范圍內(nèi)服從這個分布,超過這個尺度可能就不服從這種分布了。而冪律分布沒有尺度的限制,不管截取任何一個部分,都仍然呈現(xiàn)冪律分布的特征。

eg:圖書銷量是服從冪律分布的,最暢銷那本書的銷量在前10名銷量中占的比例,和前10名的銷量在前100名的銷量中占的比例,和前100名在前1000名的總銷量中占的比例,大體都是相同的。

第一,冪律分布讓平均數(shù)失去意義

第二,冪律分布讓原本不會發(fā)生的極端事件發(fā)生

在數(shù)學(xué)上,這個叫“長尾”,也叫肥尾、厚尾。簡單說就是,雖然極端數(shù)據(jù)出現(xiàn)的概率很低,但這個概率永遠(yuǎn)不會趨近于0,永遠(yuǎn)不會小到可以忽略不計。

在正態(tài)分布里,數(shù)據(jù)非常集中,非常極端的數(shù)據(jù)幾乎不可能出現(xiàn),可以直接忽略不不計。而在冪律分布里,再極端的數(shù)據(jù)都有出現(xiàn)的可能。

第三,冪律分布完全不可預(yù)測

eg:著名的“沙堆模型”,在平臺上不斷添加沙粒,慢慢形成一個沙堆。隨著沙堆高度的增加,新添加的沙粒會帶動沙堆表面其他沙粒滾落,產(chǎn)生所謂的“沙崩”。統(tǒng)計沙崩的規(guī)模和發(fā)生的頻率,科學(xué)家發(fā)現(xiàn)它服從冪律分布。

所有物理知識我們都掌握,而且能用計算機跟蹤每一粒沙子的位置,但仍然找不到沙堆崩塌的原因。既不知道在什么條件下,再放一粒沙子就會導(dǎo)致沙崩,也無法預(yù)測這粒沙子導(dǎo)致的沙崩規(guī)模會有多大。

冪律分布產(chǎn)生的原因,目前沒有統(tǒng)一答案。

在從有序到無序這個熵減過程中,冪律分布必然發(fā)生。

雖然冪律分布像魔鬼一樣狡詐、難以預(yù)料,但它可能是我們對抗熵增的必然選擇,是每個系統(tǒng)從無序到有序,從混沌到清晰,從未知世界到規(guī)律世界的必經(jīng)之路。冪律分布存在的地方,看似兇險,卻恰恰是對抗熵增,對抗死寂,對抗死亡的角斗場,是我們的希望之光。

在自然界與日常生活中,包括地震規(guī)模大小的分布、月球表面上月坑直徑的分布、行星間碎片大小的分布、太陽耀斑強度的分布、計算機文件大小的分布、戰(zhàn)爭規(guī)模的分布、人類語言 中單詞頻率的分布、大多數(shù)國家姓氏 的分布、科學(xué)家撰寫的論文數(shù)的分 布、論文被引用的次數(shù)的分布、網(wǎng)頁 被點擊次數(shù)的分布、書籍及唱片的銷 售冊數(shù)或張數(shù)的分布、每類生物中物 種數(shù)的分布、甚至電影所獲得的奧斯卡獎項數(shù)的分布等,都是典型的冪律分布。


15 泊松分布:打開統(tǒng)計推斷的大門


泊松分布公式
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容