DAY14 信息論重要模型

【通識(shí)課學(xué)習(xí)日志】

本訓(xùn)練營(yíng):林超所長(zhǎng)的通識(shí)課

今日主題:第十五課? ?信息論重要模型

學(xué)習(xí)日期:2022年10月2日

本課能量金句:組成你人生每一刻的所有人事物,都是通過(guò)你給出去的想法和感受吸引回來(lái)的,你生命中的一切都不是偶發(fā)的,你接收到的所有事物都是以你給出去的為基礎(chǔ)。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?——朗達(dá)·拜恩《力量》


1.?三個(gè)重要公式

1.1E=MC^2

其中E是指能量,M值物質(zhì),C是指光速。這個(gè)公式把能量和物質(zhì)通過(guò)一個(gè)抽象的公式聯(lián)系了起來(lái)。

1.2ΔxΔp≥h/4π

這個(gè)公式是海森堡測(cè)不準(zhǔn)原理,其指出:不可能同時(shí)精確確定一個(gè)基本粒子的位置和動(dòng)量,在微觀世界中粒子會(huì)因?yàn)槿祟惖挠^察而改變運(yùn)動(dòng)軌跡。這個(gè)原理告訴我們,我們真正觀察到的東西是客觀世界和主觀想象的結(jié)合。

1.3信息熵

1.3.1定義:信息熵(information entropy)是信息論的基本概念。描述信息源各可能事件發(fā)生的不確定性。20世紀(jì)40年代,香農(nóng)(C.E.Shannon)借鑒了熱力學(xué)的概念,把信息中排除了冗余后的平均信息量稱為“信息熵”,并給出了計(jì)算信息熵的數(shù)學(xué)表達(dá)式,信息熵的提出解決了對(duì)信息的量化度量問(wèn)題。

1.3.2解讀1:能量守恒定律告訴我們能量不會(huì)憑空產(chǎn)生,也不會(huì)憑空消失,只會(huì)由一種形式轉(zhuǎn)換為另一種形式。但信息是不守恒的,意味著人類之間分享知識(shí)可以為這個(gè)世界創(chuàng)造純粹增量的事情。

解讀2:由于信息熵是對(duì)信息平均信息量的度量,因此一種信息出現(xiàn)的可能性越平均,信息熵越大。比如在一個(gè)盒子里面各種一半藍(lán)色的皮卡丘和黃色的皮卡丘,這樣的話盒子里的信息熵是最大的,但如果只裝黃色或只裝藍(lán)色的皮卡丘則信息熵幾乎為0.再比如有一場(chǎng)飯局,別人問(wèn)你吃什么,這個(gè)時(shí)候回答“隨便”的信息熵大于回答“不吃辣”的信息熵,大于直接回答“吃這家店”的信息熵。

2.?霍夫曼編碼&奧卡姆提刀

2.1定義

①霍夫曼編碼(英語(yǔ):Huffman Coding),又譯為哈夫曼編碼、赫夫曼編碼,是一種用于無(wú)損數(shù)據(jù)壓縮的熵編碼(權(quán)編碼)算法。由大衛(wèi)·霍夫曼在1952年發(fā)明。

在計(jì)算機(jī)數(shù)據(jù)處理中,霍夫曼編碼使用變長(zhǎng)編碼表對(duì)源符號(hào)(如文件中的一個(gè)字母)進(jìn)行編碼,其中變長(zhǎng)編碼表是通過(guò)一種評(píng)估來(lái)源符號(hào)出現(xiàn)機(jī)率的方法得到的,出現(xiàn)機(jī)率高的字母使用較短的編碼,反之出現(xiàn)機(jī)率低的則使用較長(zhǎng)的編碼,這便使編碼之后的字符串的平均長(zhǎng)度、期望值降低,從而達(dá)到無(wú)損壓縮數(shù)據(jù)的目的。

例如,在英文中,e的出現(xiàn)機(jī)率最高,而z的出現(xiàn)概率則最低。當(dāng)利用霍夫曼編碼對(duì)一篇英文進(jìn)行壓縮時(shí),e極有可能用一個(gè)比特來(lái)表示,而z則可能花去25個(gè)比特。用普通的表示方法時(shí),每個(gè)英文字母均占用一個(gè)字節(jié),即8個(gè)比特。二者相比,e使用了一般編碼的1/8的長(zhǎng)度,z則使用了3倍多。倘若我們能實(shí)現(xiàn)對(duì)于英文中各個(gè)字母出現(xiàn)概率的較準(zhǔn)確的估算,就可以大幅度提高無(wú)損壓縮的比例。

②奧卡姆剃刀:如無(wú)必要,勿增實(shí)體。

2.2啟發(fā)1:為了提高效率,我們應(yīng)該把生活中最重要的資源,分配給人生中最高頻出現(xiàn)的場(chǎng)景。比如所長(zhǎng)舉得例子,生活中電腦和手機(jī)的適用頻率很高,所以這兩樣?xùn)|西要盡量買(mǎi)最好的。反例是衣服,一些衣服可能只穿一兩次,但是還是有人花大價(jià)錢(qián)去買(mǎi),這個(gè)做法很不符合霍夫曼編碼的原理。

啟發(fā)2:大刀闊斧做減法,同時(shí)圍繞關(guān)鍵領(lǐng)域飽和配置資源。比如所長(zhǎng)舉得例子,一般的出租屋會(huì)把客廳看電視的地方做的很大,而沒(méi)有書(shū)桌的區(qū)域,由于所長(zhǎng)幾乎不花時(shí)間在看電視上,反而會(huì)話很多時(shí)間看書(shū),因此會(huì)把看電視的區(qū)域改造成讀書(shū)的地方,然后配置書(shū)桌等資源。

3.?幀間壓縮算法

3.1定義

幀間壓縮是通過(guò)比較時(shí)間軸上不同幀之間的數(shù)據(jù)進(jìn)行壓縮。幀間壓縮一般是無(wú)損的。幀差值(Frame differencing)算法是一種典型的時(shí)間壓縮法,它通過(guò)比較本幀與相鄰幀之間的差異,僅記錄本幀與其相鄰幀的差值,這樣可以大大減少數(shù)據(jù)量。

一場(chǎng)兩個(gè)小時(shí)的電影在沒(méi)有壓縮的前提下信息量高達(dá)一千多GB,占用很大的存儲(chǔ)空間因此必須要進(jìn)行壓縮。而幀間壓縮算法通過(guò)關(guān)注差異量或者增量而實(shí)現(xiàn)無(wú)損壓縮的效果。

3.2啟發(fā):通過(guò)關(guān)注信息增量而不是關(guān)注信息存量,來(lái)極大地提升效率。即是關(guān)注變化,忽略重復(fù),可以使我們的學(xué)習(xí)效率提升N倍。

4.?互信息

4.1定義

互信息是信息論里一種有用的信息度量,它可以看成是一個(gè)隨機(jī)變量中包含的關(guān)于另一個(gè)隨機(jī)變量的信息量。如果一段信息當(dāng)中的互信息太多,意味著等價(jià)信息太多,就是所謂的廢話太多?;バ畔⒌亩嗌倏梢杂萌哂喽葋?lái)衡量。冗余的信息會(huì)使傳信料率降低,但能提高通訊的抗干擾能力。

4.2啟發(fā)

①冗余并不一定是壞東西,在工程領(lǐng)域,它可以保證系統(tǒng)運(yùn)作的安全,在表達(dá)上,它能更好地服務(wù)于人類的認(rèn)知習(xí)慣。比如正常的逗號(hào)或者句號(hào)傳遞的信息量很少,幾乎不傳遞什么信息,但是人腦對(duì)一篇沒(méi)有任何標(biāo)點(diǎn)符號(hào)的文章是很難接受的,這個(gè)就是人類的認(rèn)知習(xí)慣決定的。

②時(shí)代在進(jìn)步,人類習(xí)慣接受的冗余度也在減少,所以我們?cè)絹?lái)越需要掌握去除冗余的方法。

③以閱讀為例,去除冗余的方法:

第一步,先把在一本書(shū)里讀到的關(guān)鍵概念零散地列出來(lái)。第二步,尋找卡片之間的連接,同時(shí)拿掉那些信息等價(jià)的卡片;③套用和矯正。即是運(yùn)用已經(jīng)掌握的分析框架對(duì)新的框架進(jìn)行套用或者進(jìn)行矯正。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 整個(gè)宇宙最重要的就是能量和信息。 三條最重要的公式, 1.物質(zhì)與能量的關(guān)系,能量和物質(zhì)是相通的。 2.香農(nóng)的信息熵...
    千云百鳥(niǎo)閱讀 706評(píng)論 0 0
  • b站大咖林超的跨學(xué)科通識(shí)課講了信息論中常見(jiàn)的模型。 首先通過(guò)張首晟教授最推薦的三條最重要的公式引出。質(zhì)能方程真是太...
    深度思考er閱讀 293評(píng)論 0 0
  • 物理世界是由信息和能量組成的。 宇宙爆炸,信息和能量一同出現(xiàn) 世界上任何一種物質(zhì)都可以用信息量化。 能量守恒,單信...
    infoyou閱讀 830評(píng)論 0 0
  • 一、世界上的股市已經(jīng)被人研究了幾百年, 各種直觀的能夠預(yù)測(cè)股市的有用信號(hào)已經(jīng)被挖掘殆盡。論證過(guò)程:信息理論對(duì)這個(gè)問(wèn)...
    飛行的奮進(jìn)號(hào)閱讀 983評(píng)論 0 1
  • 我受夠了每篇論文不同的世界觀與敘述方式。下文的所有公式與算法流程都將以Python代碼的形式給出。人會(huì)犯錯(cuò),語(yǔ)言有...
    ChengLin閱讀 2,849評(píng)論 0 3

友情鏈接更多精彩內(nèi)容