寫在前面的廢話
這部分內容,是半年前就有詢問的知識點,沒想到我的拖延癥如此嚴重,硬生生的讓我把這篇稿子從19年拖到了20年。
但是有失必有得,雖然拖延,但是我對于這兩個知識點的分辨也有了更清晰的認識,希望也能幫助大家更清楚的辨析。
太長不看系列
Probabiity(概率):給定某一參數(shù)值,求某一結果的可能性
Likelihood(似然):給定某一結果,求某一參數(shù)值的可能性
廢話超多系列
概率(probability)和似然(likelihood),都是指可能性,都可以被稱為概率,但在統(tǒng)計應用中有所區(qū)別,不加以區(qū)分的話,對于之后的學習認知都會有很大的阻礙。
為了更好的幫助自己和大家理解這二者之間的區(qū)別,希望通過三種方法去闡釋:
- 圖示
- 類比
- 舉例
方法1:圖示
假設現(xiàn)在有一組小鼠體重數(shù)據(jù)。該數(shù)據(jù)服從正態(tài)分布,該分布的均值是32克,標準差為2.5。該組數(shù)據(jù)的最小值是24g,最大值是40g。
那么概率是什么呢?當我們隨機選取一只小鼠,它的體重在32g-34g之間的概率是落在該區(qū)間下,概率分布曲線下的面積。具體如下圖所示:

圖中,箭頭所指的紅色區(qū)域的面積,就是任選一小鼠,體重在32g-34g之間的概率。
該區(qū)域的面積為0.29,也就是說概率為29%。從數(shù)學上來講,就是Pr(32g<體重<34g|μ=32 & σ=2.5)=0.29
那如果隨機選取一只小鼠,體重超過34g的概率是多少呢?從數(shù)學上來講,就是Pr(體重>34g | μ=32 & σ=2.5) = 0.21。用圖表示就是下面紅色部分的面積:

講完了概率,那么什么是似然呢?假設我們已經知道了一只小鼠的體重是34g。如圖所示:

其中,紅色的點代表的是小鼠的體重。而其likelihood則是其對應的曲線上的點,即:紅色的叉,對應的值為0.12。用數(shù)學公式表示就是L(μ=32 & σ=2.5|體重34g) = 0.12。也就是說,若小鼠體重為34g,該參數(shù)的可能是0.12
如果我們換一個概率分布,使用平均值為34,方差為2.5的正態(tài)分布呢?此時的似然值是多少呢?數(shù)學公式表示就是L(μ=34 & σ=2.5|體重34g) = 0.21。用圖表示,就是下圖中紅色點對應的紅色十字的值:0.21

即:給定一個數(shù)據(jù),不同的參數(shù)具有不同的似然概率。
方法2:類比
該方法,是quora上的一個回答。在該回答中,他將概率與似然的關系比作是2b和a2的之間的關系。
我們假設一個函數(shù)為ab,該函數(shù)包含兩個變量。
如果你令b=2,這樣我們就得到了一個關于a的二次函數(shù),即a2:

如果令a=2,我們就得到了一個關于b的指數(shù)函數(shù),即2b:

我們可以看到,雖然兩個函數(shù)有著不同的名字,但是它們都來源于一個函數(shù)。同樣的,概率和似然,也是如此:
p(x|θ)也是一個有著兩個變量的函數(shù)。如果,我們將θ設為常量,則會得到一個概率函數(shù)(關于x的函數(shù));如果,我們x設為常量,將得到似然函數(shù)(關于θ的函數(shù))。
方法3:舉例
假設,我們拋一枚勻質硬幣,拋10次,6次正面向上的可能性多大?用公式計算的話:
其中,n=10,P=0.5,Q=0.5,計算得:0.205。該方法計算的是概率
那似然呢?似然值就是求某一參數(shù)的可能性,放在本例中就是:拋一枚硬幣,拋10次,結果是6次正面向上,其是勻質的可能性多大?
拋10次,結果是6次正面向上,這是一個給定的結果。問“勻質”的可能性,即求參數(shù)值P=0.5的可能性。計算公式與上面相同。結果相同,只是視角不同
與似然相關聯(lián)的概念是最大似然估計。在本例中,問題就是:“拋10次,結果是6次正面朝上,那么,參數(shù)P的最大可能值是什么?”
我們知道硬幣可能是勻質的,也可能是不均勻的,甚至不均勻的程度都各有不同。但是每種情況的概率各不相同。而最大似然估計,就是求出概率最大的那一個。
如果你還記得最大似然估計的計算方法,你會發(fā)現(xiàn)P=0.6
