概率分布(理論部分總結(jié))

一、基本概念

1. 隨機(jī)變量

隨機(jī)變量是試驗結(jié)果的實值函數(shù)。
舉例來說,擲一枚質(zhì)地均勻的骰子,可能出現(xiàn)的結(jié)果有1,2,3,4,5,6。那么可以定義隨機(jī)變量X=出現(xiàn)的點(diǎn)數(shù)。
或者,調(diào)查一個地區(qū)居民的年收入,可能出現(xiàn)的結(jié)果是任意正數(shù)。那么可以定義隨機(jī)變量X=隨機(jī)抽取一個人的年收入。
根據(jù)取值范圍,可以分為離散型隨機(jī)變量連續(xù)型隨機(jī)變量

2.古典概率

設(shè)一個試驗有N個等可能性的結(jié)果,而事件A包含了M個結(jié)果,那么事件E的概率,記為P(A)定義為:p(A) =M/N;
因為每個等可能基本事件概率為1/N,因此M個自然就是M/N。

3.條件概率

條件概率是指事件A在另外一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率。條件概率表示為:P(A|B),讀作“在B的條件下A的概率”。

若只有兩個事件A,B,那么
條件概率.png

4.離散變量

如果隨機(jī)變量的取值是有限的或可數(shù)無限的,稱為離散型隨機(jī)變量

  • 有限:
    取值可以列舉出來,如擲骰子的結(jié)果只有6種。
  • 無限但可數(shù):
    取值跟自然數(shù)是一一對應(yīng)的,如一個地區(qū)的人口數(shù),理論上總是能夠數(shù)得盡。

5.連續(xù)變量

如果隨機(jī)變量的取值在是無窮的,且不能無遺漏的排列出來,稱為連續(xù)型隨機(jī)變量。
如燈泡的壽命,從0到正無窮(理論上)都有可能。

6.期望值

二、離散變量概率分布

1. 伯努利分布(0-1分布)

0-1分布又名兩點(diǎn)分布,或叫伯努利分布。
伯努利分布

其中 k=0,1。
伯努利分布未必一定是 0-1 分布,也可能是 a-b 分布,只需滿足相互獨(dú)立、只取兩個值的隨機(jī)變量通常稱為伯努利(Bernoulli)隨機(jī)變量。

2. 二項分布(n 重伯努利分布)

二項分布有以下性質(zhì):

  • 一次試驗有且僅有兩種可能結(jié)果:“成功”和“失敗”,兩個結(jié)果是隨機(jī)決定且互斥的。
  • 每次試驗中,成功的概率是P,失敗的概率是1-P,并且成功和失敗的概率是常數(shù)或近似于不變。
  • 各次試驗之間相互獨(dú)立,每次試驗結(jié)果不受其它各次試驗結(jié)果的影響。
    二項分布
    記為k~B(n,p)。
    伯努利分布是二項分布在n=1時的特例。
    二項分布的均值和方差分別為np和npq
    二項分布的另一個性質(zhì)是其分布形狀的變化規(guī)律。從二項分布概率質(zhì)量函數(shù)P(x)可知,概率分布只與試驗次數(shù)n和成功概率p有關(guān),其分布形狀的變化規(guī)律為:
  • "成功"概率p越接近0.5(也即"成功"概率與"失敗"概率越接近),二項分布將越對稱。保持二項分布試驗的次數(shù)n不變,隨著成功概率p越接近0.5,二項分布逐漸對稱,且近似于均值為np、方差為npq的正態(tài)分布。(見下圖的第一排3個子圖)。
  • 對于任意"成功"概率p,無論其距離0.5有多遠(yuǎn),隨著試驗次數(shù)n的增加,二項分布與均值為np、方差為npq的正態(tài)分布越來越接近。(見下圖的第二排3個子圖)。

    以上兩個二項分布形狀變化規(guī)律,可明顯由上圖觀察出來。圖中的橫軸代表試驗"成功"的次數(shù);縱軸代表次數(shù)對應(yīng)的概率;紅線是均值為np、方差為npq的正態(tài)分布曲線。

3. 泊松分布

泊松概率分布是考慮在連續(xù)時間和空間單位上發(fā)生的隨機(jī)事件的概率
通俗解釋:基于過去的經(jīng)驗,預(yù)測該隨機(jī)事件在新的同樣長的時間或同樣大的空間中發(fā)生N次的概率。
泊松分布經(jīng)常用于商業(yè)中的庫存控制。諸如,一家海鮮餐廳過去一個月顧客平均訂購7只龍蝦,如果該餐廳希望今后能有95%的把握滿足顧客需求,需要儲存龍蝦的數(shù)量。

三、連續(xù)變量概率分布

1. 均勻分布

若連續(xù)型隨機(jī)變量X具有概率密度

均勻分布概率密度.jpeg
則稱X在區(qū)間(a,b)上服從均勻分布,記為X~U(a,b)。在區(qū)間中任意等長度的子區(qū)間的可能性是相同的,落在(a,b)的子區(qū)間的概率值依賴于子區(qū)間的長度與子區(qū)間的位置無關(guān)。
分布函數(shù)
均勻分布分布函數(shù)

2. 正態(tài)分布

連續(xù)隨機(jī)變量X的概率密度為:
正態(tài)分布概率密度

圖像特點(diǎn):
(1)集中性:正態(tài)曲線的高峰位于正中央,即均數(shù)所在的位置。
(2)對稱性:正態(tài)曲線以均數(shù)為中心,左右對稱,曲線兩端永遠(yuǎn)不與橫軸相交。
(3)均勻變動性:正態(tài)曲線由均數(shù)所在處開始,分別向左右兩側(cè)逐漸均勻下降。
采用正態(tài)分布在很多應(yīng)用中都是一個明智的選擇。當(dāng)我們?nèi)狈﹃P(guān)于某個數(shù)據(jù)上分布的先驗知識而不知道該怎么選擇形式時,正態(tài)分布時默認(rèn)的比較好的分布。而我們現(xiàn)實中的很多分布都是接近正態(tài)分布的,在具有相同方差的所有可能的概率分布中,正態(tài)分布在實數(shù)上具有很大的不確定性,可以認(rèn)為正態(tài)分布是對模型加入的先驗知識量最少的分布。

3. 指數(shù)分布

連續(xù)隨機(jī)變量X的概率密度為:
指數(shù)分布概率密度.jpeg

其中λ>0,為常數(shù),則稱X服從參數(shù)為λ的指數(shù)分布。在深度學(xué)習(xí)中,我們經(jīng)常會需要一個x=0點(diǎn)處取得邊界點(diǎn)的分布,而指數(shù)分布就可以達(dá)到這一目的。

分布函數(shù):
指數(shù)分布分布函數(shù)

指數(shù)分布概率密度圖
指數(shù)分布分布函數(shù)圖.jpeg

期望:
指數(shù)分布期望

方差:
指數(shù)分布方差

如何確定是指數(shù)分布:畫出取對數(shù)后的互補(bǔ)累積分布函數(shù)(1-CDF(x)),如果數(shù)據(jù)服從指數(shù)分布,則是指數(shù)分布。

4. 偏態(tài)分布

頻數(shù)分布有正態(tài)分布和偏態(tài)分布之分。正態(tài)分布是指多數(shù)頻數(shù)集中在中央位置,兩端的頻數(shù)分布大致對稱。
偏態(tài)分布是指頻數(shù)分布不對稱,集中位置偏向一側(cè)。若集中位置偏向數(shù)值小的一側(cè),稱為正偏態(tài)分布;集中位置偏向數(shù)值大的一側(cè),稱為負(fù)偏態(tài)分布。
如果頻數(shù)分布的高峰向左偏移,長尾向右側(cè)延伸稱為正偏態(tài)分布,也稱右偏態(tài)分布;同樣的,如果頻數(shù)分布的高峰向右偏移,長尾向左延伸則成為負(fù)偏態(tài)分布,也稱左偏態(tài)分布。
當(dāng)偏度系數(shù)等于0時,稱之為對稱分布;當(dāng)偏度系數(shù)小于0時,為之為左偏分布,長尾拖在左邊;當(dāng)偏度系數(shù)大于0時,稱之為右偏分布,長尾拖在右邊。


三種偏度的分布曲線

構(gòu)建模型時為什么要盡量將偏態(tài)數(shù)據(jù)轉(zhuǎn)換為正態(tài)分布數(shù)據(jù)?
數(shù)據(jù)整體服從正態(tài)分布,那樣本均值和方差則相互獨(dú)立。正態(tài)分布具有很多好的性質(zhì),很多模型假設(shè)數(shù)據(jù)服從正態(tài)分布。例如線性回歸(linear regression),它假設(shè)誤差服從正態(tài)分布,從而每個樣本點(diǎn)出現(xiàn)的概率就可以表示成正態(tài)分布的形式,將多個樣本點(diǎn)連乘再取對數(shù),就是所有訓(xùn)練集樣本出現(xiàn)的條件概率,最大化這個條件概率就是LR要最終求解的問題。這里這個條件概率的最終表達(dá)式的形式就是我們熟悉的誤差平方和??傊?, ML中很多model都假設(shè)數(shù)據(jù)或參數(shù)服從正態(tài)分布。
如果不是正態(tài)分布怎么辦?
數(shù)據(jù)右偏的話可以對所有數(shù)據(jù)取對數(shù)、取平方根等,它的原理是因為這樣的變換的導(dǎo)數(shù)是逐漸減小的,也就是說它的增速逐漸減緩,所以就可以把大的數(shù)據(jù)向左移,使數(shù)據(jù)接近正態(tài)分布。
如果左偏的話可以取相反數(shù)轉(zhuǎn)化為右偏的情況。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容