一、基本概念
1. 隨機(jī)變量
隨機(jī)變量是試驗結(jié)果的實值函數(shù)。
舉例來說,擲一枚質(zhì)地均勻的骰子,可能出現(xiàn)的結(jié)果有1,2,3,4,5,6。那么可以定義隨機(jī)變量X=出現(xiàn)的點(diǎn)數(shù)。
或者,調(diào)查一個地區(qū)居民的年收入,可能出現(xiàn)的結(jié)果是任意正數(shù)。那么可以定義隨機(jī)變量X=隨機(jī)抽取一個人的年收入。
根據(jù)取值范圍,可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量。
2.古典概率
設(shè)一個試驗有N個等可能性的結(jié)果,而事件A包含了M個結(jié)果,那么事件E的概率,記為P(A)定義為:p(A) =M/N;
因為每個等可能基本事件概率為1/N,因此M個自然就是M/N。
3.條件概率
條件概率是指事件A在另外一個事件B已經(jīng)發(fā)生條件下的發(fā)生概率。條件概率表示為:P(A|B),讀作“在B的條件下A的概率”。

4.離散變量
如果隨機(jī)變量的取值是有限的或可數(shù)無限的,稱為離散型隨機(jī)變量。
- 有限:
取值可以列舉出來,如擲骰子的結(jié)果只有6種。 - 無限但可數(shù):
取值跟自然數(shù)是一一對應(yīng)的,如一個地區(qū)的人口數(shù),理論上總是能夠數(shù)得盡。
5.連續(xù)變量
如果隨機(jī)變量的取值在是無窮的,且不能無遺漏的排列出來,稱為連續(xù)型隨機(jī)變量。
如燈泡的壽命,從0到正無窮(理論上)都有可能。
6.期望值
二、離散變量概率分布
1. 伯努利分布(0-1分布)
0-1分布又名兩點(diǎn)分布,或叫伯努利分布。
其中 k=0,1。
伯努利分布未必一定是 0-1 分布,也可能是 a-b 分布,只需滿足相互獨(dú)立、只取兩個值的隨機(jī)變量通常稱為伯努利(Bernoulli)隨機(jī)變量。
2. 二項分布(n 重伯努利分布)
二項分布有以下性質(zhì):
- 一次試驗有且僅有兩種可能結(jié)果:“成功”和“失敗”,兩個結(jié)果是隨機(jī)決定且互斥的。
- 每次試驗中,成功的概率是P,失敗的概率是1-P,并且成功和失敗的概率是常數(shù)或近似于不變。
- 各次試驗之間相互獨(dú)立,每次試驗結(jié)果不受其它各次試驗結(jié)果的影響。記為k~B(n,p)。二項分布
伯努利分布是二項分布在n=1時的特例。
二項分布的均值和方差分別為np和npq。
二項分布的另一個性質(zhì)是其分布形狀的變化規(guī)律。從二項分布概率質(zhì)量函數(shù)P(x)可知,概率分布只與試驗次數(shù)n和成功概率p有關(guān),其分布形狀的變化規(guī)律為: - "成功"概率p越接近0.5(也即"成功"概率與"失敗"概率越接近),二項分布將越對稱。保持二項分布試驗的次數(shù)n不變,隨著成功概率p越接近0.5,二項分布逐漸對稱,且近似于均值為np、方差為npq的正態(tài)分布。(見下圖的第一排3個子圖)。
-
對于任意"成功"概率p,無論其距離0.5有多遠(yuǎn),隨著試驗次數(shù)n的增加,二項分布與均值為np、方差為npq的正態(tài)分布越來越接近。(見下圖的第二排3個子圖)。
以上兩個二項分布形狀變化規(guī)律,可明顯由上圖觀察出來。圖中的橫軸代表試驗"成功"的次數(shù);縱軸代表次數(shù)對應(yīng)的概率;紅線是均值為np、方差為npq的正態(tài)分布曲線。
3. 泊松分布
泊松概率分布是考慮在連續(xù)時間和空間單位上發(fā)生的隨機(jī)事件的概率。
通俗解釋:基于過去的經(jīng)驗,預(yù)測該隨機(jī)事件在新的同樣長的時間或同樣大的空間中發(fā)生N次的概率。
泊松分布經(jīng)常用于商業(yè)中的庫存控制。諸如,一家海鮮餐廳過去一個月顧客平均訂購7只龍蝦,如果該餐廳希望今后能有95%的把握滿足顧客需求,需要儲存龍蝦的數(shù)量。
三、連續(xù)變量概率分布
1. 均勻分布
若連續(xù)型隨機(jī)變量X具有概率密度:

分布函數(shù):

2. 正態(tài)分布
連續(xù)隨機(jī)變量X的概率密度為:


圖像特點(diǎn):
(1)集中性:正態(tài)曲線的高峰位于正中央,即均數(shù)所在的位置。
(2)對稱性:正態(tài)曲線以均數(shù)為中心,左右對稱,曲線兩端永遠(yuǎn)不與橫軸相交。
(3)均勻變動性:正態(tài)曲線由均數(shù)所在處開始,分別向左右兩側(cè)逐漸均勻下降。
采用正態(tài)分布在很多應(yīng)用中都是一個明智的選擇。當(dāng)我們?nèi)狈﹃P(guān)于某個數(shù)據(jù)上分布的先驗知識而不知道該怎么選擇形式時,正態(tài)分布時默認(rèn)的比較好的分布。而我們現(xiàn)實中的很多分布都是接近正態(tài)分布的,在具有相同方差的所有可能的概率分布中,正態(tài)分布在實數(shù)上具有很大的不確定性,可以認(rèn)為正態(tài)分布是對模型加入的先驗知識量最少的分布。
3. 指數(shù)分布
連續(xù)隨機(jī)變量X的概率密度為:
其中λ>0,為常數(shù),則稱X服從參數(shù)為λ的指數(shù)分布。在深度學(xué)習(xí)中,我們經(jīng)常會需要一個x=0點(diǎn)處取得邊界點(diǎn)的分布,而指數(shù)分布就可以達(dá)到這一目的。





如何確定是指數(shù)分布:畫出取對數(shù)后的互補(bǔ)累積分布函數(shù)(1-CDF(x)),如果數(shù)據(jù)服從指數(shù)分布,則是指數(shù)分布。
4. 偏態(tài)分布
頻數(shù)分布有正態(tài)分布和偏態(tài)分布之分。正態(tài)分布是指多數(shù)頻數(shù)集中在中央位置,兩端的頻數(shù)分布大致對稱。
偏態(tài)分布是指頻數(shù)分布不對稱,集中位置偏向一側(cè)。若集中位置偏向數(shù)值小的一側(cè),稱為正偏態(tài)分布;集中位置偏向數(shù)值大的一側(cè),稱為負(fù)偏態(tài)分布。
如果頻數(shù)分布的高峰向左偏移,長尾向右側(cè)延伸稱為正偏態(tài)分布,也稱右偏態(tài)分布;同樣的,如果頻數(shù)分布的高峰向右偏移,長尾向左延伸則成為負(fù)偏態(tài)分布,也稱左偏態(tài)分布。
當(dāng)偏度系數(shù)等于0時,稱之為對稱分布;當(dāng)偏度系數(shù)小于0時,為之為左偏分布,長尾拖在左邊;當(dāng)偏度系數(shù)大于0時,稱之為右偏分布,長尾拖在右邊。

構(gòu)建模型時為什么要盡量將偏態(tài)數(shù)據(jù)轉(zhuǎn)換為正態(tài)分布數(shù)據(jù)?
數(shù)據(jù)整體服從正態(tài)分布,那樣本均值和方差則相互獨(dú)立。正態(tài)分布具有很多好的性質(zhì),很多模型假設(shè)數(shù)據(jù)服從正態(tài)分布。例如線性回歸(linear regression),它假設(shè)誤差服從正態(tài)分布,從而每個樣本點(diǎn)出現(xiàn)的概率就可以表示成正態(tài)分布的形式,將多個樣本點(diǎn)連乘再取對數(shù),就是所有訓(xùn)練集樣本出現(xiàn)的條件概率,最大化這個條件概率就是LR要最終求解的問題。這里這個條件概率的最終表達(dá)式的形式就是我們熟悉的誤差平方和??傊?, ML中很多model都假設(shè)數(shù)據(jù)或參數(shù)服從正態(tài)分布。
如果不是正態(tài)分布怎么辦?
數(shù)據(jù)右偏的話可以對所有數(shù)據(jù)取對數(shù)、取平方根等,它的原理是因為這樣的變換的導(dǎo)數(shù)是逐漸減小的,也就是說它的增速逐漸減緩,所以就可以把大的數(shù)據(jù)向左移,使數(shù)據(jù)接近正態(tài)分布。
如果左偏的話可以取相反數(shù)轉(zhuǎn)化為右偏的情況。

