一、基本概念

1. 隨機(jī)變量

隨機(jī)變量是試驗結(jié)果的實值函數(shù)。
舉例來說，擲一枚質(zhì)地均勻的骰子，可能出現(xiàn)的結(jié)果有1，2，3，4，5，6。那么可以定義隨機(jī)變量X=出現(xiàn)的點(diǎn)數(shù)。
或者，調(diào)查一個地區(qū)居民的年收入，可能出現(xiàn)的結(jié)果是任意正數(shù)。那么可以定義隨機(jī)變量X=隨機(jī)抽取一個人的年收入。
根據(jù)取值范圍，可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。

2.古典概率

設(shè)一個試驗有N個等可能性的結(jié)果，而事件A包含了M個結(jié)果，那么事件E的概率，記為P(A)定義為：p(A) =M/N；
因為每個等可能基本事件概率為1/N，因此M個自然就是M/N。

3.條件概率

條件概率是指事件A在另外一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率。條件概率表示為：P（A|B），讀作“在B的條件下A的概率”。

若只有兩個事件A，B，那么

條件概率.png

4.離散變量

如果隨機(jī)變量的取值是有限的或可數(shù)無限的，稱為離散型隨機(jī)變量。

有限：
取值可以列舉出來，如擲骰子的結(jié)果只有6種。
無限但可數(shù)：
取值跟自然數(shù)是一一對應(yīng)的，如一個地區(qū)的人口數(shù)，理論上總是能夠數(shù)得盡。

5.連續(xù)變量

如果隨機(jī)變量的取值在是無窮的，且不能無遺漏的排列出來，稱為連續(xù)型隨機(jī)變量。
如燈泡的壽命，從0到正無窮(理論上)都有可能。

6.期望值

二、離散變量概率分布

1. 伯努利分布（0-1分布）

0-1分布又名兩點(diǎn)分布，或叫伯努利分布。

伯努利分布

其中 k=0,1。
伯努利分布未必一定是 0-1 分布，也可能是 a-b 分布，只需滿足相互獨(dú)立、只取兩個值的隨機(jī)變量通常稱為伯努利（Bernoulli）隨機(jī)變量。

2. 二項分布（n 重伯努利分布）

二項分布有以下性質(zhì)：

一次試驗有且僅有兩種可能結(jié)果：“成功”和“失敗”，兩個結(jié)果是隨機(jī)決定且互斥的。
每次試驗中，成功的概率是P，失敗的概率是1-P，并且成功和失敗的概率是常數(shù)或近似于不變。
各次試驗之間相互獨(dú)立，每次試驗結(jié)果不受其它各次試驗結(jié)果的影響。

二項分布

記為k～B(n,p)。
伯努利分布是二項分布在n=1時的特例。
二項分布的均值和方差分別為np和npq。
二項分布的另一個性質(zhì)是其分布形狀的變化規(guī)律。從二項分布概率質(zhì)量函數(shù)P(x)可知，概率分布只與試驗次數(shù)n和成功概率p有關(guān)，其分布形狀的變化規(guī)律為：
"成功"概率p越接近0.5(也即"成功"概率與"失敗"概率越接近)，二項分布將越對稱。保持二項分布試驗的次數(shù)n不變，隨著成功概率p越接近0.5，二項分布逐漸對稱，且近似于均值為np、方差為npq的正態(tài)分布。(見下圖的第一排3個子圖)。
對于任意"成功"概率p，無論其距離0.5有多遠(yuǎn)，隨著試驗次數(shù)n的增加，二項分布與均值為np、方差為npq的正態(tài)分布越來越接近。(見下圖的第二排3個子圖)。

以上兩個二項分布形狀變化規(guī)律，可明顯由上圖觀察出來。圖中的橫軸代表試驗"成功"的次數(shù)；縱軸代表次數(shù)對應(yīng)的概率；紅線是均值為np、方差為npq的正態(tài)分布曲線。

3. 泊松分布

泊松概率分布是考慮在連續(xù)時間和空間單位上發(fā)生的隨機(jī)事件的概率。
通俗解釋：基于過去的經(jīng)驗，預(yù)測該隨機(jī)事件在新的同樣長的時間或同樣大的空間中發(fā)生N次的概率。
泊松分布經(jīng)常用于商業(yè)中的庫存控制。諸如，一家海鮮餐廳過去一個月顧客平均訂購7只龍蝦，如果該餐廳希望今后能有95%的把握滿足顧客需求，需要儲存龍蝦的數(shù)量。

三、連續(xù)變量概率分布

1. 均勻分布

若連續(xù)型隨機(jī)變量X具有概率密度：

均勻分布概率密度.jpeg

則稱X在區(qū)間（a,b）上服從均勻分布，記為X~U(a，b)。在區(qū)間中任意等長度的子區(qū)間的可能性是相同的，落在（a,b）的子區(qū)間的概率值依賴于子區(qū)間的長度與子區(qū)間的位置無關(guān)。
分布函數(shù)：

均勻分布分布函數(shù)

2. 正態(tài)分布

連續(xù)隨機(jī)變量X的概率密度為：

正態(tài)分布概率密度

圖像特點(diǎn)：
（1）集中性：正態(tài)曲線的高峰位于正中央，即均數(shù)所在的位置。
（2）對稱性：正態(tài)曲線以均數(shù)為中心，左右對稱，曲線兩端永遠(yuǎn)不與橫軸相交。
（3）均勻變動性：正態(tài)曲線由均數(shù)所在處開始，分別向左右兩側(cè)逐漸均勻下降。
采用正態(tài)分布在很多應(yīng)用中都是一個明智的選擇。當(dāng)我們?nèi)狈﹃P(guān)于某個數(shù)據(jù)上分布的先驗知識而不知道該怎么選擇形式時，正態(tài)分布時默認(rèn)的比較好的分布。而我們現(xiàn)實中的很多分布都是接近正態(tài)分布的，在具有相同方差的所有可能的概率分布中，正態(tài)分布在實數(shù)上具有很大的不確定性，可以認(rèn)為正態(tài)分布是對模型加入的先驗知識量最少的分布。

3. 指數(shù)分布

連續(xù)隨機(jī)變量X的概率密度為：

指數(shù)分布概率密度.jpeg

其中λ>0,為常數(shù)，則稱X服從參數(shù)為λ的指數(shù)分布。在深度學(xué)習(xí)中，我們經(jīng)常會需要一個x=0點(diǎn)處取得邊界點(diǎn)的分布，而指數(shù)分布就可以達(dá)到這一目的。

分布函數(shù)：

指數(shù)分布分布函數(shù)

指數(shù)分布概率密度圖

指數(shù)分布分布函數(shù)圖.jpeg

期望：

指數(shù)分布期望

方差：

指數(shù)分布方差

如何確定是指數(shù)分布：畫出取對數(shù)后的互補(bǔ)累積分布函數(shù)（1-CDF（x）），如果數(shù)據(jù)服從指數(shù)分布，則是指數(shù)分布。

4. 偏態(tài)分布

頻數(shù)分布有正態(tài)分布和偏態(tài)分布之分。正態(tài)分布是指多數(shù)頻數(shù)集中在中央位置，兩端的頻數(shù)分布大致對稱。
偏態(tài)分布是指頻數(shù)分布不對稱，集中位置偏向一側(cè)。若集中位置偏向數(shù)值小的一側(cè)，稱為正偏態(tài)分布；集中位置偏向數(shù)值大的一側(cè)，稱為負(fù)偏態(tài)分布。
如果頻數(shù)分布的高峰向左偏移，長尾向右側(cè)延伸稱為正偏態(tài)分布，也稱右偏態(tài)分布；同樣的，如果頻數(shù)分布的高峰向右偏移，長尾向左延伸則成為負(fù)偏態(tài)分布，也稱左偏態(tài)分布。
當(dāng)偏度系數(shù)等于0時，稱之為對稱分布；當(dāng)偏度系數(shù)小于0時，為之為左偏分布，長尾拖在左邊；當(dāng)偏度系數(shù)大于0時，稱之為右偏分布，長尾拖在右邊。

三種偏度的分布曲線

構(gòu)建模型時為什么要盡量將偏態(tài)數(shù)據(jù)轉(zhuǎn)換為正態(tài)分布數(shù)據(jù)？
數(shù)據(jù)整體服從正態(tài)分布，那樣本均值和方差則相互獨(dú)立。正態(tài)分布具有很多好的性質(zhì)，很多模型假設(shè)數(shù)據(jù)服從正態(tài)分布。例如線性回歸(linear regression)，它假設(shè)誤差服從正態(tài)分布，從而每個樣本點(diǎn)出現(xiàn)的概率就可以表示成正態(tài)分布的形式，將多個樣本點(diǎn)連乘再取對數(shù)，就是所有訓(xùn)練集樣本出現(xiàn)的條件概率，最大化這個條件概率就是LR要最終求解的問題。這里這個條件概率的最終表達(dá)式的形式就是我們熟悉的誤差平方和?？傊?， ML中很多model都假設(shè)數(shù)據(jù)或參數(shù)服從正態(tài)分布。
如果不是正態(tài)分布怎么辦？
數(shù)據(jù)右偏的話可以對所有數(shù)據(jù)取對數(shù)、取平方根等，它的原理是因為這樣的變換的導(dǎo)數(shù)是逐漸減小的，也就是說它的增速逐漸減緩，所以就可以把大的數(shù)據(jù)向左移，使數(shù)據(jù)接近正態(tài)分布。
如果左偏的話可以取相反數(shù)轉(zhuǎn)化為右偏的情況。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

概率分布（理論部分總結(jié)）

概率分布（理論部分總結(jié)）

一、基本概念

1. 隨機(jī)變量

2.古典概率

3.條件概率

4.離散變量

5.連續(xù)變量

6.期望值

二、離散變量概率分布

1. 伯努利分布（0-1分布）

2. 二項分布（n 重伯努利分布）

3. 泊松分布

三、連續(xù)變量概率分布

1. 均勻分布

2. 正態(tài)分布

3. 指數(shù)分布

4. 偏態(tài)分布

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

概率分布（理論部分總結(jié)）

一、基本概念

1. 隨機(jī)變量

2.古典概率

3.條件概率

4.離散變量

5.連續(xù)變量

6.期望值

二、離散變量概率分布

1. 伯努利分布（0-1分布）

2. 二項分布（n 重伯努利分布）

3. 泊松分布

三、連續(xù)變量概率分布

1. 均勻分布

2. 正態(tài)分布

3. 指數(shù)分布

4. 偏態(tài)分布

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、基本概念

二、離散變量概率分布

三、連續(xù)變量概率分布