被操视频97,在线免费一区99

1 熵

1.1 自信息和熵

??熵（Entropy）最早是物理學(xué)的概念，用于表示一個(gè)熱力學(xué)系統(tǒng)的無(wú)序程度。1948年，香農(nóng)將統(tǒng)計(jì)物理中熵的概念，引申到信道通信的過(guò)程中，從而開(kāi)創(chuàng)了”信息論“這門(mén)學(xué)科。香農(nóng)定義的“熵”又被稱(chēng)為“香農(nóng)熵” 或 “信息熵”。在信息論中，熵用來(lái)衡量一個(gè)隨機(jī)事件的不確定性。假設(shè)對(duì)一個(gè)隨機(jī)變量 $\small X$ （取值集合為 $\small \chi$ ，概率分布為 $\small p(x), x ∈ \chi$ ）進(jìn)行編碼，自信息（Self Information） $\small I(x)$ 是變量 $\small X = x$ 時(shí)的信息量或編碼長(zhǎng)度，定義為
$I(x)=-\log p(x)$ 那么隨機(jī)變量 $\small X$ 的平均編碼長(zhǎng)度，即熵定義為：
$H(x) = \sum_{x \in \chi}p(x) \log p(x)$ 其中當(dāng) $\small p(x_i) = 0$ 時(shí)，我們定義 $\small 0\log 0=0$ ，這與極限一致， $\small \lim_{p→0+} p \log p = 0$ 。
??熵是一個(gè)隨機(jī)變量的平均編碼長(zhǎng)度，即自信息的數(shù)學(xué)期望。熵越高，則隨機(jī)變量的信息越多；熵越低，則信息越少。如果變量 $\small X$ 當(dāng)且僅當(dāng)在 $\small x$ 時(shí) $\small p(x) = 1$ ，則熵為0。也就是說(shuō)，對(duì)于一個(gè)確定的信息，其熵為0，信息量也為0。如果其概率分布為一個(gè)均勻分布，則熵最大。下圖展示了一個(gè)二元信源的熵函數(shù)：

二元信源熵函數(shù)

1.2 聯(lián)合熵和條件熵

??對(duì)于兩個(gè)離散隨機(jī)變量 $\small X$ 和 $\small Y$ ，假設(shè) $\small X$ 取值集合為 $\small\chi$ ； $\small Y$ 取值集合為 $\small \upsilon$ ，其聯(lián)合概率分布滿(mǎn)足為 $\small p(x, y)$ ，則
$\small X$ 和 $\small Y$ 的聯(lián)合熵（Joint Entropy）為
$H(X,Y) = -\sum_{x \in \chi} \sum_{y \in \upsilon} \log p(x,y)$ 聯(lián)合熵的物理意義是:觀察一個(gè)多個(gè)隨機(jī)變量的隨機(jī)系統(tǒng)獲得的信息量。觀察一個(gè)多個(gè)隨機(jī)變量的隨機(jī)系統(tǒng)獲得的信息量。
$\small X$ 和 $\small Y$ 的條件熵（Conditional Entropy）為
$\begin{align} H(X|Y) & = -\sum_{x \in \chi} \sum_{y \in \upsilon} p(x,y) \log p(x|y) \\ & = -\sum_{x \in \chi} \sum_{y \in \upsilon} p(x,y) \log \frac{p(x,y)}{p(y)} \\ & = -(\sum_{x \in \chi} \sum_{y \in \upsilon} p(x,y) \log p(x,y) - \sum_{x \in \chi} \sum_{y \in \upsilon} p(x,y) \log p(y))\\ & = -(\sum_{x \in \chi} \sum_{y \in \upsilon} p(x,y) \log p(x,y) - \sum_{y \in \upsilon} p(y) \log p(y))\\ & = H(X,Y) - H(Y) \end{align}$ 條件熵的物理意義就是：在得知某一確定信息的基礎(chǔ)上獲取另外一個(gè)信息時(shí)所獲得的信息量。

2 互信息

??互信息（Mutual Information）是衡量已知一個(gè)變量時(shí)，另一個(gè)變量不確定性的減少程度。兩個(gè)離散隨機(jī)變量 $\small X$ 和 $\small Y$ 的互信息定義為
$I(X,Y) = \sum_{x \in \chi}\sum_{y \in \upsilon}p(x,y) \ log \frac{p(x,y)}{p(x)p(y)}$ 互信息的一個(gè)性質(zhì)為
$\begin{align} H(X;Y)& = H(X) - H(X|Y)\\ &=H(Y)-H(Y|X) \end{align}$ 如果 $\small X$ 和 $\small Y$ 互相獨(dú)立，即 $\small X$ 和 $\small Y$ 之間互相不提供任何信息，反之亦然，因此他們的互信息為0。

3 交叉熵和相對(duì)熵

3.1 交叉熵

??現(xiàn)在有關(guān)于樣本集的兩個(gè)概率分布 $\small p(x)$ 和 $\small q(x)$ ，其中 $\small p(x)$ 為真實(shí)分布， $\small q(x)$ 非真實(shí)分布。如果用真實(shí)分布 $\small p(x)$ 來(lái)衡量識(shí)別別一個(gè)樣本所需要編碼長(zhǎng)度的期望（平均編碼長(zhǎng)度）為:
$H(p)=-\sum _x p(x) \log p(x)$ 如果使用非真實(shí)分布 $\small q(x)$ 來(lái)表示來(lái)自真實(shí)分布 $\small p(x)$ 的平均編碼長(zhǎng)度，則是：
$H(p,q) = -\sum_x p(x) \log q(x)$ 因?yàn)橛?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Csmall%20q(x)" alt="\small q(x)" mathimg="1">來(lái)編碼的樣本來(lái)自于分布 $\small p(x)$ ，所以 $\small H(p,q)$ 中的概率是 $\small p(x)$ 。此時(shí)就將 $\small H(p,q)$ 稱(chēng)之為交叉熵。在給定 $\small p$ 的情況下，如果 $\small q$ 和 $\small p$ 越接近，交叉熵越?。蝗绻?img class="math-inline" src="https://math.jianshu.com/math?formula=%5Csmall%20q" alt="\small q" mathimg="1">和 $\small p$ 越遠(yuǎn)，交叉熵就越大。

3.2 相對(duì)熵（KL散度）

?? $\small KL$ 散度（Kullback-Leibler Divergence），也叫 $\small KL$ 距離或相對(duì)熵(Relative Entropy)，是用概率分布 $\small q$ 來(lái)近似 $\small p$ 時(shí)所造成的信息損失量。 $\small KL$ 散度是按照概率分布 $\small q$ 的最優(yōu)編碼對(duì)真實(shí)分布為 $\small p$ 的信息進(jìn)行編碼，其平均編碼長(zhǎng)度 $\small H(p,q)$ 和 $\small p$ 的最優(yōu)平均編碼長(zhǎng)度 $\small H(p)$ 之間的差異。對(duì)于離散概率分布 $\small p$ 和 $\small q$ ，從 $\small q$ 到 $\small p$ 的KL散度定義為:
$\begin{align} D_{KL}(p||q) &= H(p,q) - H(p)\\ &=\sum_x p(x) \log \frac{p(x)}{q(x)} \end{align}$ 其中為了保證連續(xù)性，定義 $\small 0 \log \frac{0}{0} = 0, 0 \log \frac{0}{q} = 0$ $\small KL$ 散度可以是衡量?jī)蓚€(gè)概率分布之間的距離。 $\small KL$ 散度總是非負(fù)的， $\small D_{KL}(p||q) ≥ 0$ 。只有當(dāng) $\small p = q$ 時(shí)， $\small D_{KL}(p||q) = 0$ 。如果兩個(gè)分布越接近， $\small KL$ 散度越?。蝗绻麅蓚€(gè)分布越遠(yuǎn)， $\small KL$ 散度就越大。但 $\small KL$ 散度并不是一個(gè)真正的度量或距離，一是 $\small KL$ 散度不滿(mǎn)足距離的對(duì)稱(chēng)性，二是 $\small KL$ 散度不滿(mǎn)足距離的三角不等式性質(zhì)。