(原文發(fā)表在我的個人博客上:http://blog.jcix.top/2017-10-29/information_redundancy/ )
冗余的人類語言
研表究明,漢字序順并不定一影閱響讀!事證實明了當(dāng)你看這完句話之后才發(fā)字現(xiàn)都亂是的。
以上這句話很多人都看到過,知乎上也有很多人討論問題的原因[2],對于這段中文,有人從貝葉斯決策的角度分析,指出這是由于人借助了上下文的相關(guān)信息+日常的經(jīng)驗。對于英文,如果把一段話的每個單詞的字母順序打亂,也會出現(xiàn)不影響閱讀的情況,有人指出這可能是人在閱讀一個單詞時只看第一個字母和最后一個字母的原因。我感覺都是有道理的。
但現(xiàn)在我們要從另一個角度考慮這個問題:
假設(shè)在另一個平行宇宙中,漢語“研表究明”和“研究表明”存在截然不同表示的是兩種截然不同的意思,那么就算那個宇宙中的人們可能就覺得這兩個詞是有區(qū)別的。
再假設(shè)一個更極端的平行宇宙,他們每個單詞都長為6個字母,且只能由ABCDEF 6種字母組成(我算了下有4萬多種組合,夠多了),那么,他們對詞序的判別應(yīng)該就特別嚴格吧。
可見,我們所在的平行宇宙中,語言中是存在“冗余”的。這樣,不管依據(jù)什么經(jīng)驗,語言的冗余,讓我們辨識出調(diào)換詞序的句子的原本意思成為可能。
其實不光調(diào)換詞序體現(xiàn)了這種冗余。類似的,當(dāng)我們在一個噪音大的環(huán)境中講話的時候,或者在FM收音機中調(diào)出一個信號不好的電臺時,我們一般情況下照樣可以聽明白對方所講,靠著也是這種“冗余”,我們可以根據(jù)已知的信息,猜出完整的信息。
0和1:抗干擾的冗余
接著說收音機。如前邊所說,我們的語言中存在”冗余”,所以接收的電臺中音調(diào)偶爾的變化或者一些字的不清晰依然不影響我們接受信息。那么為什么現(xiàn)在的網(wǎng)絡(luò)電臺沒有這些失真、底噪呢,人們靠什么高科技來消除這些噪聲干擾?
我們常見的收音機,不管是調(diào)幅的還是調(diào)頻的,都是以模擬信號進行傳輸?shù)模@種信號直接將要傳輸?shù)男畔⒁苑然蛘哳l率的形式均勻地映射(調(diào)制)到負責(zé)傳輸信號的電磁波(載波)上,由于傳輸?shù)倪^程(信道)中信號必然是被各種干擾(噪聲)的,于是我們的收音機接收到的電磁波轉(zhuǎn)換到聲音的形式(解調(diào))時,干擾信號(噪聲)也就被一一映射到了聲音(噪音)傳到我們耳朵中。
但是現(xiàn)在的網(wǎng)絡(luò)傳輸,多數(shù)基于數(shù)字信號。信號都不再是一一映射到頻率值或幅度值了,而是僅映射為一個由0或1(兩種頻率或幅度)組成的編碼。我們假定一個最簡單的串行通信,在一個時刻,只能有0或1兩種可能,假設(shè)信道中存在干擾(比如0被干擾到0.2還會被認為是0信號,1被干擾為0.9還會被認為是1信號),接收后的結(jié)果也大概率沒有出錯。其實這也是一種冗余,一種防止出錯的冗余。
0, 1, 2, 3:高效的冗余?
我們?yōu)榱诵畔⒌姆€(wěn)定傳輸,將無限種狀態(tài)映射到兩種狀態(tài)(0和1)的編碼。但是,我們?yōu)槭裁匆欢ㄒ?種狀態(tài)呢?為什么不能是0, 1, 2三種狀態(tài)呢?如果這種可能容易實現(xiàn)(電路上),而且人們最開始沒有走上普及二進制計算機這條不歸路,那么可能我們現(xiàn)在用的都是基于三機制的電腦了[4]。
技術(shù)上的難度或者轉(zhuǎn)換的巨大成本,讓人類點了”二進制”這條科技樹。不過人們雖然沒有用3種狀態(tài),但是用4種狀態(tài)或者8種狀態(tài)的情況倒是有很多,因為這能保證了和系統(tǒng)其他部分的二進制組件兼容。
比如在信息存儲中,固態(tài)硬盤(SSD)的MLC/TLC技術(shù),就是在每個存儲單元中把以前SLC的兩種狀態(tài)(電壓)記錄信息,轉(zhuǎn)為用4種/8種電壓來記錄信息,這樣做便增加了SSD的存儲密度。
(0, 1, 2, 3) + X: 不可避免的冗余
但是,這種4種或8種狀態(tài)的SSD,雖然提高了存儲密度,但它們的存儲單元的壽命會縮短,所以制作這種SSD的時候,就一定要在設(shè)備內(nèi)部預(yù)留更多的備用存儲單元,這也是一種冗余??磥砣哂鄰目垢蓴_的冗余被迫轉(zhuǎn)為空間的冗余。
當(dāng)然,我們也可以采用校驗/糾錯碼技術(shù),用更小的空間冗余來保證信息的可靠。但是編碼或數(shù)據(jù)恢復(fù)都需要話費額外的計算時間。如果我們比起冗余空間的開銷,更不看重數(shù)據(jù)恢復(fù)的時間,那么看起來空間的冗余又轉(zhuǎn)為了時間的冗余。
看來,冗余無法避免,0/1到(0, 1, 2, 3),雖然它們減少了信號抗干擾的冗余,但是最終也無法避免的使用了其他的冗余。X可能是空間,可能是時間,但到今天這個世界中,都會是money,無法預(yù)測的money。
擴展閱讀
[1] 熵:宇宙的終極規(guī)則, http://www.ruanyifeng.com/blog/2017/04/entropy.html
[2] 知乎:為什么漢字順序有時候不影響閱讀?
https://www.zhihu.com/question/20428571
[3] 知乎:如何從心理學(xué)上解釋『打亂英語單詞首尾字母之外的字母順序仍然不影響閱讀』的現(xiàn)象?https://www.zhihu.com/question/20804531/answer/16237704
[4] 知乎:蘇聯(lián)三進制計算機Сетунь到底是怎樣一個計算機?https://www.zhihu.com/question/35937929