AI學(xué)習(xí)筆記之?dāng)?shù)學(xué)基礎(chǔ)四(信息論)

信息論在AI中也扮演著重要的角色

  • 意義:不確定性才是客觀世界的本質(zhì)屬性。
  • 克勞德·香農(nóng)發(fā)表了著名論文《通信的數(shù)學(xué)理論》,給出了對(duì)信息這一定性概念的定量分析方法,標(biāo)志著信息論作為一門學(xué)科的正式誕生。
  • 信息熵:對(duì)單個(gè)信源的信息量和通信中傳遞信息的數(shù)量與效率等問題做出了解釋,并在世界的不確定性和信息的可測(cè)量性之間搭建起一座橋梁。
  • 熵的本質(zhì):一個(gè)系統(tǒng)內(nèi)在的混亂程度。
  • 自信息量的定義:
    • 如果事件 A發(fā)生的概率為 p(A),自信息量為:
  • 信源的信息熵:信源可能發(fā)出的各個(gè)符號(hào)的自信息量在信源構(gòu)成的概率空間上的統(tǒng)計(jì)平均值。
    • 如果一個(gè)離散信源 X 包含 n個(gè)符號(hào),每個(gè)符號(hào) ai的取值為 p(ai),則 X 的信源熵為
    • 當(dāng)信源中的每個(gè)符號(hào)的取值概率相等時(shí),信源熵取到最大值 log2n,意味著信源的隨機(jī)程度最高。
  • 條件熵:將條件概率擴(kuò)展到信息論中,如果兩個(gè)信源之間具有相關(guān)性,那么在已知其中一個(gè)信源 X 的條件下,另一個(gè)信源 Y 的信源熵就會(huì)減小。
    • 條件熵 H(Y|X) 表示的是在已知隨機(jī)變量 X 的條件下另一個(gè)隨機(jī)變量 Y 的不確定性,也就是在給定 X 時(shí),根據(jù) Y 的條件概率計(jì)算出的熵再對(duì) X 求解數(shù)學(xué)期望:

    • 條件熵的意義在于先按照變量 X 的取值對(duì)變量 Y進(jìn)行了一次分類,對(duì)每個(gè)分出來的類別計(jì)算其單獨(dú)的信息熵,再將每個(gè)類的信息熵按照 X 的分布計(jì)算其數(shù)學(xué)期望。

  • 互信息:等于 Y 的信源熵減去已知 X 時(shí) Y 的條件熵,即由 X 提供的關(guān)于 Y 的不確定性的消除,也可以看成是 X 給 Y帶來的信息增益。
    • 互信息這個(gè)名稱在通信領(lǐng)域經(jīng)常使用,信息增益則在機(jī)器學(xué)習(xí)領(lǐng)域中經(jīng)常使用,兩者的本質(zhì)是一樣的。


    • 在機(jī)器學(xué)習(xí)中,信息增益常常被用于分類特征的選擇。
    • 對(duì)于給定的訓(xùn)練數(shù)據(jù)集 Y,H(Y) 表示在未給定任何特征時(shí),對(duì)訓(xùn)練集進(jìn)行分類的不確定性;
    • H(Y|X) 則表示了使用特征 X 對(duì)訓(xùn)練集 Y進(jìn)行分類的不確定性。
    • 信息增益表示的就是特征 X 帶來的對(duì)訓(xùn)練集 Y 分類不確定性的減少程度,也就是特征 X 對(duì)訓(xùn)練集 Y 的區(qū)分度。
    • 信息增益更大的特征具有更強(qiáng)的分類能力。但信息增益的值很大程度上依賴于數(shù)據(jù)集的信息熵 H(Y),因而并不具有絕對(duì)意義。
  • 信息增益比:g(X,Y)=I(X;Y)/H(Y)
  • Kullback-Leibler 散度:
    • KL 散度描述兩個(gè)概率分布 P 和 Q 之間的差異的一種方法,其定義為:
    • KL 散度是對(duì)額外信息量的衡量。給定一個(gè)信源,其符號(hào)的概率分布為 P(X),就可以設(shè)計(jì)一種針對(duì) P(X) 的最優(yōu)編碼,使得表示該信源所需的平均比特?cái)?shù)最少(等于該信源的信源熵)
    • KL 散度用來衡量這種情況下平均每個(gè)字符多用的比特?cái)?shù),也可以表示兩個(gè)分布之間的距離。
    • KL 散度的兩個(gè)重要性質(zhì)是非負(fù)性和非對(duì)稱性。
      • 非負(fù)性是指 KL 散度是大于或等于 0 的,等號(hào)只在兩個(gè)分布完全相同時(shí)取到。
      • 非對(duì)稱性則是指 DKL(P||Q)≠DKL(Q||P),即用 P(X)P(X) 去近似 Q(X) 和用 Q(X)去近似 P(X)得到的偏差是不同的,因此 KL 散度并不滿足數(shù)學(xué)意義上對(duì)距離的定義
  • 最大熵原理:確定隨機(jī)變量統(tǒng)計(jì)特性時(shí)力圖最符合客觀情況的一種準(zhǔn)則。對(duì)于一個(gè)未知的概率分布,最壞的情況就是它以等可能性取到每個(gè)可能的取值。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容