花書《深度學習》《Deep Learning》學習筆記 chapter 3(1)

3.1 為什么要用概率?

幾乎所有的活動都需要能夠在不確定性存在時進行推理。事實上,除了那些被定義為真的數(shù)學陳述,我們很難認定某個命題是千真萬確的或者確保某件事一定會發(fā)生。
不確定性有三種可能的來源:

  • 被建模系統(tǒng)內(nèi)在的隨機性。
  • 不完全觀測。
  • 不完全建模。
    在醫(yī)生診斷病人的情況下,我們用概率來表示一種信任度 (degree of belief),其中 1 表示非常肯定病人患有流感而 0 表示非??隙ú∪藳]有流感。前面一種概率,直接與事件發(fā)生的頻率相聯(lián)系,被稱為頻率概率 (frequentist probability);而后者,涉及到確定性水平,被稱為貝葉斯概率 (Bayesian probability)

3.2 隨機變量

隨機變量 (random variable) 是可以隨機地取不同值的變量。

3.3 概率分布

概率分布 (probability distribution)用來描述隨機變量或一簇隨機變量在每一個 可能取到的狀態(tài)的可能性大小。

3.3.1 離散型變量和概率分布律函數(shù)

概率分布律函數(shù) (probability mass function, PMF):離散型變量的概率分布
? P 的定義域必須是 x 所有可能狀態(tài)的集合。
? ?x ∈ x, 0 ≤ P (x) ≤ 1.
聯(lián)合概率分布 (joint probability distribution):多個變量的概率分布
均勻分布:P(X=x)=1/k

3.3.2 連續(xù)型變量和概率密度函數(shù)

X為連續(xù)型隨機變量時,用概率密度函數(shù) (probability density function, PDF)來描述它的概率分布
? p 的定義域必須是 x 所有可能狀態(tài)的集合。
? ?x ∈ x,p(x) ≥ 0. 注意,我們并不要求 p(x) ≤ 1。
? ∫ p(x)dx = 1.
x ~ U(a,b) 表示 x 在 [a,b] 上是均勻分布的,p(x)=1/(b-a)。

3.4 邊緣概率

定義在子集上的概率分布被稱為邊緣概率分布 (marginal probability distribution)
設離散型隨機變量x和y,已知P(x,y),得到P(x):

對于連續(xù)型變量,

3.5 條件概率

貝葉斯法則

3.6 條件概率的鏈式法則

3.7 獨立性和條件獨立性

相互獨立 (independent)

條件獨立 (conditionally independent)

3.8 期望,方差和協(xié)方差

期望 (expectation):

離散型隨機變量
連續(xù)型隨機變量

方差(variance)

協(xié)方差 (covariance):兩個變量線性相關性的強度以及這些變量的尺度
協(xié)方差的絕對值如果很大則意味著變量值變化很大并且它們同時距離各自的均值很 遠。如果協(xié)方差是正的,那么兩個變量都傾向于同時取得相對較大的值。如果協(xié)方差是負的,那么其中一個變量傾向于取得相對較大的值的同時,另一個變量傾向于取得相對較小的值,反之亦然。其他的衡量指標如相關系數(shù)(correlation)將每個變量的貢獻歸一化,為了只衡量變量的相關性,而不受變量大小的分別影響。
兩個變量如果協(xié)方差為零,它們之間一定沒有線性關系。
獨立性表示兩個變量不僅沒有線性相關,而且也不存在非線性相關。
協(xié)方差矩陣 (covariance matrix)
協(xié)方差矩陣的對角元是方差:

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容