信息?書籍?算法

第1篇:藏書

這是我個人關(guān)于信息、書籍和算法的一些跨界思考。最早在喜馬拉雅電臺絮絮叨叨說了幾個有聲片段,但后來發(fā)現(xiàn)里面有很多信口開河之處,謬誤甚多,所以將它們整理修訂并擴(kuò)充了一下。另外,比起聲音和視頻,以文字的方式獲取信息還是效率更高一些。

我們先來談書籍與信息。很多人很喜歡實(shí)體書,他們覺得讀書就應(yīng)該選這種,特別是一些較為傳統(tǒng)的讀書人更為推崇實(shí)體書。但是,對于重度書籍愛好者來說,讀書固然重要,但藏書帶來的負(fù)擔(dān)會更大,這是實(shí)體書的一個致命缺點(diǎn)。

一般人的藏書量也許能擺滿幾個書柜,這種已經(jīng)算比較多了,放在家里是一道美麗的風(fēng)景線。但是當(dāng)書的存量到達(dá)一定數(shù)量時,你就會覺得書的數(shù)量會對藏書帶來特別大的壓力,關(guān)鍵問題在于得有空間來容納這些書。比如說,如果你有20到30個書柜,家里地方又寬敞,看上去挺好。但是,很快每個書柜都會填滿了書籍,而且馬上又會雙層擺滿,這樣新到的書只能堆在地上、沙發(fā)上乃至于茶幾上。這個例子其實(shí)并不極端,許多作家的家里都是這個樣子。事實(shí)上,書柜的問題在于得一面敞開以便取用,這也造成了它空間占用量特別大。要是永遠(yuǎn)不看倒也罷了,所有書都放箱子里就好。

上海交通大學(xué)的江曉原教授獨(dú)辟蹊徑,雖然他家藏書甚豐,但他聰明地解決了這個問題。歐陽應(yīng)霽先生給江老師寫過一篇圖文并茂的短文,可以看到江老師家的圖書用滑動檔案架存放,需要時才滑動檔案架騰出空間讓人進(jìn)去取用,而平時它們都緊挨在一起。江老師知道書得放在二樓上,所以明智的他在設(shè)計時特別考察了樓層的承重,看看是否能承擔(dān)得起這么多書。因?yàn)槲覀兌贾罆艹恋模昂古3錀潯边@個詞說的就是這個意思嘛。

想要改進(jìn)這一點(diǎn),不妨考察一下歷史。從古代到現(xiàn)代,書的載體和物理形態(tài)發(fā)生了極大的改變,它們越來越輕薄。即便如此,許多年來書的重量對人類而言卻一直沒有太大的改觀。實(shí)際上書里頭蘊(yùn)含的信息量并不像書的重量那么明顯。拿到一本純文字的書,看上去五六百頁,但書中大多數(shù)內(nèi)容都是空白也就是白色背景。而這種排布方式是考慮了我們?nèi)祟惖纳硖卣?,要是一頁密密麻麻,恐怕絕大部分人都會得密集恐懼癥了。

機(jī)器卻沒有這種煩惱。它可以直接閱讀真正的信息,也就是書中有字的那部分,實(shí)際上這些字就是形成了語言乃至于信息論里的一個重要概念——字母表。比如說英文的字母表,有26個字母(包括大寫小寫),還有一些標(biāo)點(diǎn)符號,這些字母表里的元素就構(gòu)成了一本書里的基本要素。雖然有限字母表能表現(xiàn)的形態(tài)不是特別多,但它們的組合卻是千變?nèi)f化無邊無際。

由于人類語言存在著較為明顯的上下文模式,而且字母表不是很大,這就造成了對書籍的數(shù)據(jù)壓縮(實(shí)際上是文本壓縮)相對于圖像或視頻而言更容易而且壓縮率也更大。可以考慮一個比較簡單的文本表示方法,就是ASCII這種編碼,例如把英文字母表的所有符號變成0和1的比特形態(tài),再加上一些控制符號,就可以很方便地存儲。

從重量上看文本壓縮,從實(shí)體書到電子書的這種變化是相當(dāng)驚人的。最早人們都是以光盤為例,現(xiàn)在一般都提的是藍(lán)光光盤,家里的書就算再多也不怕裝不下。比如一本1000頁的科技圖書,它的矢量格式的PDF文件也就是10MB左右,一張單層的25GB藍(lán)光光盤能裝下2560本這樣的書,要是純文學(xué)作品那就更多了。當(dāng)然,我們現(xiàn)在更愿意使用閃存芯片,它們的容量也越來越大。從更深層次來看是信息的重量問題,不妨認(rèn)為某個獨(dú)立器件的存儲量除以重量就是它能實(shí)現(xiàn)單個比特的重量,顯然這也是有物理極限的。

關(guān)于信息的尺寸問題研究地更為充分,目前技術(shù)所能達(dá)到的“原子硬盤”最早由著名物理學(xué)家Feynman在There's Plenty of Room at the Bottom中提出,2016年Nature Nanotechnology所發(fā)表A kilobytere writable atomic memory這篇論文做到了原子級別的存儲,能容下書的數(shù)量多得可怕,號稱能在“郵票大小的硬盤中寫下人類歷史上所有的書籍”。事實(shí)上,F(xiàn)eynman的老師Wheeler早有論斷“萬物皆比特”,宇宙恐怕也真是比特的幻想罷了。

實(shí)際上,書籍電子化可以讓我們的藏書更加完善和完美。一本實(shí)體書你從各種方式購買,包括線下渠道和網(wǎng)上購買,都難免會受到一些損傷,比如它的封皮和內(nèi)頁可能會被污損和外力傷害。對于那些有完美主義傾向的藏書家來說,他可能會千挑萬選找出一本品相很好的書。在書店你可以在好多本里找一本相對完美的書,可是那些網(wǎng)絡(luò)購買的圖書怎么辦?某位藏書家提到,他在海外網(wǎng)購圖書的時候一般會一種買上三本,這樣就算運(yùn)輸過程中外面的兩本損壞,中間的那本還是完好的。這是不是有點(diǎn)像“重要的事情說三遍”呢,實(shí)際上這可是信息論里的(3, 1)重復(fù)碼的思想?。〔贿^,為了對付暴力投遞,這種策略還是有一定作用的。盡管挺浪費(fèi),但他為了找到完美無損的信息也是拼了。當(dāng)然,要是那種特別值得一讀的經(jīng)典圖書,買上幾本也無妨,品相不好的可以平時閱讀,品相完美的收藏起來就好了。

書的完美性還體現(xiàn)在是否有錯上。一本書一旦印刷出來以后,國內(nèi)一次印量是3000冊(現(xiàn)在也有2000冊的),如果其中有一個錯誤,那么這批書全都有錯,而這個錯誤是無法挽回的。對于電子書的形態(tài)來說,挽回錯誤相對說比較容易,相當(dāng)于軟件找到了一個bug。一旦發(fā)現(xiàn)了bug,在下一版里直接更新它就好了。讀者可以看到更完美的圖書形態(tài),而且可以不斷更新。不過對于傳統(tǒng)的文學(xué)作品,它的錯誤不是特別礙事,但科技圖書的錯誤非常致命,如果不修訂難免對書的質(zhì)量和聲譽(yù)造成很大的傷害。當(dāng)然有人會辯解說電子書沒有讀書的感覺,這個可能是個人喜好的問題,但實(shí)際上電子書面臨的最大問題是盜版和版權(quán)問題。實(shí)體書如果有盜版,印刷工藝可能不能媲美原版,但電子書盜版太容易,和原版是完全一致的(信息的可復(fù)制性)。目前看來,沒有什么太好的圖書防盜版技術(shù),現(xiàn)在的國內(nèi)的版權(quán)意識還不是特別強(qiáng)烈,尤其對于圖書而言,覺得知識就是免費(fèi)拿來分享的,也沒有價值。不過,圖書的價值和回報很難在一時看出來。未來圖書的載體形態(tài)會有什么變化,究竟是實(shí)體書還是電子書,或者更高級的書,這個還是未知數(shù)。

最后我們來吐槽一下Kindle電子書,雖然它提供勘誤這個功能,但是由于有些維護(hù)人員不得力,往往這個錯誤會存在很久。相比而言,作者自己維護(hù)的電子書就比較容易糾錯,因?yàn)檫@是一個聲譽(yù)的問題。這里不得不提到一套溫瑞安的Kindle全集,里面錯誤還是蠻多的,不過溫巨俠比較隨性,也許不計較這些錯誤吧。但是金庸大俠就比較喜歡控制自己作品的文字,不斷修改更新。噢,雖然跑題了,但是忍不住還想說一下,有錯的書珍藏價值有時候其實(shí)更高,而且可以識別珍貴的初版書(first edition),就像霍桑的《紅字》初版就把"repudiate"錯印為"reduplicate",它只印了2500冊而10天就售賣一空。當(dāng)然,如果有bibliomania(藏書癖)的讀者朋友,不妨看看First Editions of American Authors這本書,里面會提到很多有趣的故事。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 歡迎關(guān)注我的公眾號:讀書主義 更多精彩等著你! 這個讀書方法,可能會顛覆你對讀書以往的認(rèn)知|開卷 或許讀書已經(jīng)成為...
    米米粒粒閱讀 35,416評論 9 209
  • 絢麗八月,終要告別。好習(xí)慣越建越多,速讀初顯效果,一月讀完36本,發(fā)現(xiàn)原來不是不會發(fā)生,而是愿不愿讓它發(fā)生。...
    西嶺雪2025閱讀 37,802評論 60 269
  • 文/步月 也不知道怎么了,自從那次和阿通的初步接觸后,木子就經(jīng)常在上課的時候跑神,這可不是一個學(xué)霸該做的事情。 有...
    步月兒閱讀 365評論 0 5
  • 安排和平常不同的特別時光。 1.切斷電話2.頭腦風(fēng)暴自己喜歡的活動清單,選出一項(xiàng)。3.每天或者每周,每月一次和自己...
    陌上花開6361988閱讀 185評論 0 0
  • 襲人比伶俐做女紅不如晴雯,與人講理吵架不如麝月,模樣也是“次一等”,可她卻成了寶玉身邊最親近的人,怡紅院的首席大丫...
    姑射閱讀 508評論 0 3

友情鏈接更多精彩內(nèi)容