【通識(shí)課學(xué)習(xí)日志】
本訓(xùn)練營(yíng):林超所長(zhǎng)的通識(shí)課
今日主題:第十五課? ?信息論重要模型
學(xué)習(xí)日期:2022年10月2日
本課能量金句:組成你人生每一刻的所有人事物,都是通過(guò)你給出去的想法和感受吸引回來(lái)的,你生命中的一切都不是偶發(fā)的,你接收到的所有事物都是以你給出去的為基礎(chǔ)。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?——朗達(dá)·拜恩《力量》
1.?三個(gè)重要公式
1.1E=MC^2
其中E是指能量,M值物質(zhì),C是指光速。這個(gè)公式把能量和物質(zhì)通過(guò)一個(gè)抽象的公式聯(lián)系了起來(lái)。
1.2ΔxΔp≥h/4π
這個(gè)公式是海森堡測(cè)不準(zhǔn)原理,其指出:不可能同時(shí)精確確定一個(gè)基本粒子的位置和動(dòng)量,在微觀世界中粒子會(huì)因?yàn)槿祟惖挠^察而改變運(yùn)動(dòng)軌跡。這個(gè)原理告訴我們,我們真正觀察到的東西是客觀世界和主觀想象的結(jié)合。
1.3信息熵

1.3.1定義:信息熵(information entropy)是信息論的基本概念。描述信息源各可能事件發(fā)生的不確定性。20世紀(jì)40年代,香農(nóng)(C.E.Shannon)借鑒了熱力學(xué)的概念,把信息中排除了冗余后的平均信息量稱為“信息熵”,并給出了計(jì)算信息熵的數(shù)學(xué)表達(dá)式,信息熵的提出解決了對(duì)信息的量化度量問(wèn)題。
1.3.2解讀1:能量守恒定律告訴我們能量不會(huì)憑空產(chǎn)生,也不會(huì)憑空消失,只會(huì)由一種形式轉(zhuǎn)換為另一種形式。但信息是不守恒的,意味著人類之間分享知識(shí)可以為這個(gè)世界創(chuàng)造純粹增量的事情。
解讀2:由于信息熵是對(duì)信息平均信息量的度量,因此一種信息出現(xiàn)的可能性越平均,信息熵越大。比如在一個(gè)盒子里面各種一半藍(lán)色的皮卡丘和黃色的皮卡丘,這樣的話盒子里的信息熵是最大的,但如果只裝黃色或只裝藍(lán)色的皮卡丘則信息熵幾乎為0.再比如有一場(chǎng)飯局,別人問(wèn)你吃什么,這個(gè)時(shí)候回答“隨便”的信息熵大于回答“不吃辣”的信息熵,大于直接回答“吃這家店”的信息熵。
2.?霍夫曼編碼&奧卡姆提刀
2.1定義
①霍夫曼編碼(英語(yǔ):Huffman Coding),又譯為哈夫曼編碼、赫夫曼編碼,是一種用于無(wú)損數(shù)據(jù)壓縮的熵編碼(權(quán)編碼)算法。由大衛(wèi)·霍夫曼在1952年發(fā)明。
在計(jì)算機(jī)數(shù)據(jù)處理中,霍夫曼編碼使用變長(zhǎng)編碼表對(duì)源符號(hào)(如文件中的一個(gè)字母)進(jìn)行編碼,其中變長(zhǎng)編碼表是通過(guò)一種評(píng)估來(lái)源符號(hào)出現(xiàn)機(jī)率的方法得到的,出現(xiàn)機(jī)率高的字母使用較短的編碼,反之出現(xiàn)機(jī)率低的則使用較長(zhǎng)的編碼,這便使編碼之后的字符串的平均長(zhǎng)度、期望值降低,從而達(dá)到無(wú)損壓縮數(shù)據(jù)的目的。
例如,在英文中,e的出現(xiàn)機(jī)率最高,而z的出現(xiàn)概率則最低。當(dāng)利用霍夫曼編碼對(duì)一篇英文進(jìn)行壓縮時(shí),e極有可能用一個(gè)比特來(lái)表示,而z則可能花去25個(gè)比特。用普通的表示方法時(shí),每個(gè)英文字母均占用一個(gè)字節(jié),即8個(gè)比特。二者相比,e使用了一般編碼的1/8的長(zhǎng)度,z則使用了3倍多。倘若我們能實(shí)現(xiàn)對(duì)于英文中各個(gè)字母出現(xiàn)概率的較準(zhǔn)確的估算,就可以大幅度提高無(wú)損壓縮的比例。
②奧卡姆剃刀:如無(wú)必要,勿增實(shí)體。
2.2啟發(fā)1:為了提高效率,我們應(yīng)該把生活中最重要的資源,分配給人生中最高頻出現(xiàn)的場(chǎng)景。比如所長(zhǎng)舉得例子,生活中電腦和手機(jī)的適用頻率很高,所以這兩樣?xùn)|西要盡量買(mǎi)最好的。反例是衣服,一些衣服可能只穿一兩次,但是還是有人花大價(jià)錢(qián)去買(mǎi),這個(gè)做法很不符合霍夫曼編碼的原理。
啟發(fā)2:大刀闊斧做減法,同時(shí)圍繞關(guān)鍵領(lǐng)域飽和配置資源。比如所長(zhǎng)舉得例子,一般的出租屋會(huì)把客廳看電視的地方做的很大,而沒(méi)有書(shū)桌的區(qū)域,由于所長(zhǎng)幾乎不花時(shí)間在看電視上,反而會(huì)話很多時(shí)間看書(shū),因此會(huì)把看電視的區(qū)域改造成讀書(shū)的地方,然后配置書(shū)桌等資源。
3.?幀間壓縮算法
3.1定義
幀間壓縮是通過(guò)比較時(shí)間軸上不同幀之間的數(shù)據(jù)進(jìn)行壓縮。幀間壓縮一般是無(wú)損的。幀差值(Frame differencing)算法是一種典型的時(shí)間壓縮法,它通過(guò)比較本幀與相鄰幀之間的差異,僅記錄本幀與其相鄰幀的差值,這樣可以大大減少數(shù)據(jù)量。

一場(chǎng)兩個(gè)小時(shí)的電影在沒(méi)有壓縮的前提下信息量高達(dá)一千多GB,占用很大的存儲(chǔ)空間因此必須要進(jìn)行壓縮。而幀間壓縮算法通過(guò)關(guān)注差異量或者增量而實(shí)現(xiàn)無(wú)損壓縮的效果。
3.2啟發(fā):通過(guò)關(guān)注信息增量而不是關(guān)注信息存量,來(lái)極大地提升效率。即是關(guān)注變化,忽略重復(fù),可以使我們的學(xué)習(xí)效率提升N倍。
4.?互信息
4.1定義
互信息是信息論里一種有用的信息度量,它可以看成是一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量。如果一段信息當(dāng)中的互信息太多,意味著等價(jià)信息太多,就是所謂的廢話太多?;バ畔⒌亩嗌倏梢杂萌哂喽葋?lái)衡量。冗余的信息會(huì)使傳信料率降低,但能提高通訊的抗干擾能力。
4.2啟發(fā)
①冗余并不一定是壞東西,在工程領(lǐng)域,它可以保證系統(tǒng)運(yùn)作的安全,在表達(dá)上,它能更好地服務(wù)于人類的認(rèn)知習(xí)慣。比如正常的逗號(hào)或者句號(hào)傳遞的信息量很少,幾乎不傳遞什么信息,但是人腦對(duì)一篇沒(méi)有任何標(biāo)點(diǎn)符號(hào)的文章是很難接受的,這個(gè)就是人類的認(rèn)知習(xí)慣決定的。
②時(shí)代在進(jìn)步,人類習(xí)慣接受的冗余度也在減少,所以我們?cè)絹?lái)越需要掌握去除冗余的方法。
③以閱讀為例,去除冗余的方法:
第一步,先把在一本書(shū)里讀到的關(guān)鍵概念零散地列出來(lái)。第二步,尋找卡片之間的連接,同時(shí)拿掉那些信息等價(jià)的卡片;③套用和矯正。即是運(yùn)用已經(jīng)掌握的分析框架對(duì)新的框架進(jìn)行套用或者進(jìn)行矯正。