姓名:劉敏提? ? ?學(xué)號:20021110076? ? 學(xué)院:電子工程學(xué)院
轉(zhuǎn)載自:微信公眾號學(xué)習(xí)觀
【嵌牛導(dǎo)讀】牽扯到 熱力學(xué)熵的一種應(yīng)用,然而不管考慮的是不是熱力學(xué)熵,這種描述都是非常具有誤導(dǎo)性的。因為熱力學(xué)熵就是信息熵的特例,如果不能想明白二者的關(guān)系,意味著還沒搞明白。接下來的視頻會詳細(xì)解釋。題外話,很多人會覺得這個概念非常難的原因是因為它們反常識,違背你日常生活經(jīng)驗所構(gòu)建出的模型。多數(shù)人都會根據(jù)自己已有的經(jīng)驗進行判斷,從而產(chǎn)生抵觸。但是不要認(rèn)為自己很笨,因為信息和熱力學(xué)熵的關(guān)系困擾科學(xué)家們都足足一百年之久
【嵌牛鼻子】熱力學(xué)熵、信息熵、知識、信息
【嵌牛提問】問題1:信息與熵的關(guān)系是什么?
【嵌牛正文】
如何定性的判斷什么是熵和信息,其中有個例子:
當(dāng)小明不知道選擇題是 ABCD 哪個選項時:
小紅告小明 “D 選項是錯的”,提供了 0.415 bits 的信息
再告訴小明 “A選項是錯的”,提供了 0.585 bits 的信息
再告訴小明 “B選項是錯的”,提供了 1 bit 的信息
可明明每次都是告訴他一個錯誤選項,為什么三次提供給小明的信息量卻都不相同? 信息量到底是怎么計算的?信息為什么還有單位?
一、“以此類推”
回想一下,什么東西有單位?質(zhì)量,溫度等物理量。
沒錯,信息也是一個物理量。 要測量這個物理量,不妨回想一下我們是怎么測量質(zhì)量的,“千克”最初又是怎么被定義出來的?
其實最初我們并不知道千克的質(zhì)量,而是選擇了一個參照物,把這個物體的質(zhì)量就稱為千克。當(dāng)想要測量其他物體的質(zhì)量時,就看這個物體的質(zhì)量相當(dāng)于多少個參照物體的質(zhì)量。這里的”多少個“便是千克。如果換另一個參照物體,那么單位就會變化,比如斤。?
測量信息是也是一樣,既然信息消除的是不確定性,那么就選擇另一個事件的不確定性作為參照事件。 當(dāng)想要測量其他事件的信息時,就看看待測事件的不確定性相當(dāng)于 多少個 參照事件的不確定性。這里的”多少個“便是信息量。
當(dāng)選擇的參照事物是像拋硬幣這樣,只有 2 種等概率情況的事件時,測得的信息量的單位就被稱為比特。
有?e (自然底數(shù)) 種等概率情況的事件時,測得的信息量的單位就被稱為?nat。
有 10 種等概率情況的事件時,測得的信息量的單位就被稱為?ban。
二、“哪里不對”
然而測量質(zhì)量時,我們是用 待測物體的質(zhì)量 除以 參照物體的質(zhì)量。 因為 待測物體的質(zhì)量 m 等于 參照物體的質(zhì)量 K 和 乘以 參照物體個數(shù) n ,所以當(dāng)知道 m 要求 n 時,我們用乘法的反函數(shù),即除法來計算。?
可是測量信息時,卻不能用除法,因為 拋擲 3 個硬幣能夠產(chǎn)生的等可能結(jié)果并非 3*2=6,而是 2^3=8 種。也就是說 待測不確定情況的個數(shù) m 是由 參照不確定情況的個數(shù) K 的參照物個數(shù) n 是指數(shù)關(guān)系進行累積的。
所以當(dāng)知道可能情況的個數(shù) m,想求這些情況相當(dāng)于多少個 n 參照事件所產(chǎn)生的時,我們用指數(shù)運算的反函數(shù),即對數(shù)運算來計算。
這樣 8 個不確定情況就相當(dāng)于 3 個硬幣拋 出的結(jié)果, 4 個不確定情況就相當(dāng)于 拋 2 個硬幣得出的,故小明對答案是ABCD里哪一選項的不確定性: log_2 4 = 2 bits。
三、“更普遍性”
但這里有個前提,那就是被測事件的所有可能情況都必須是等概率才行,因為參照事件本身的兩種情況就是等概率。?
可是當(dāng)不知道答案的小明被告知 “有一半可能性是 C 選項” 時,各個情況的概率就不一樣了,這時該如何計算熵呢?
答案是分別測量待測事件每種可能情況的信息量后,乘以它們各自的發(fā)生概率再相加即可。
不過,怎么測量每種情況的信息量呢? 怎么知道概率為 1/6 的情況的不確定性相當(dāng)于拋擲多少次硬幣所產(chǎn)生的不確定性呢??
我們確實沒法再用 log m 這個公式了,但我們知道 1% 會發(fā)生的情況,相當(dāng)于從100個等概率情況中確定實際情況, 概率的倒數(shù)等于等概率情況的個數(shù),m = 1/p。?
用 1/p 替換 m 后,我們就可以計算每種情況的信息量了, 再用每個情況的信息量乘以對應(yīng)發(fā)生的概率,再相加后,就能算總信息量了。?
i:?用于指定第幾個具體情況
p_i:第?i?個具體情況的概率
Σ:表示?i?個情況計算出的 p log p 累加起來
之所以前面有負(fù)號是因為?
log 1/p =?log p^-1 = -log p
概率的倒數(shù)變成了負(fù)號被拿到前面了
回到例子中,不知道任何答案的小明對 答案的不確定性是:
log_2 1/p = log_2 1/4 = 2
當(dāng)被告知 C 有 50%概率是正確答案時,小明對答案的不確定性是:
1/6 * log_2 6/1 +?
1/6 * log_2 6/1 +?
1/2 * log_2 2/1 +?
1/6 * log_2 1/6= 1.79
2-1.79=0.21?bits, 也就是小紅告訴小明”C 的概率是 50%“時提供的信息。
可以思考一下:
為什么三次提供給小明的信息量卻都不相同?
再次描述一遍信息與熵的關(guān)系:
某人對某物的熵(不確定性)相當(dāng)于水杯,信息相當(dāng)于水,新填充的水(新信息)要看杯子原來有多少水(已有信息),但水無法溢過杯子(能接收到的最大信息就是該人目前的剩余不確定性)。
偉大的數(shù)學(xué)家:克勞德·香農(nóng)(Claude Elwood Shannon),信息公式的發(fā)明者。