以下內(nèi)容學(xué)習(xí)、摘錄自《數(shù)學(xué)之美》

數(shù)字、文字和自然語言一樣,都是信息的載體,它們之間原本有著天然的聯(lián)系。語言和數(shù)學(xué)的產(chǎn)生都是為了同一個(gè)目的——記錄和傳播信息。但是,直到半個(gè)多世紀(jì)前香農(nóng)博士提出信息論,人們才開始把數(shù)學(xué)和信息系統(tǒng)自覺地聯(lián)系起來。在此之前,數(shù)學(xué)的發(fā)展主要跟人類對(duì)自然的認(rèn)識(shí)以及生產(chǎn)活動(dòng)聯(lián)系在一起,包括天文學(xué)、幾何和工程學(xué)、經(jīng)濟(jì)學(xué)、力學(xué)物理學(xué)甚至生物學(xué)等,而數(shù)學(xué)和語言學(xué)幾乎是沒有交集的。
隨著文明的進(jìn)步,埃及象形文字從最初數(shù)量大約只有500個(gè),到數(shù)量5000個(gè)左右,與中國(guó)常用的漢字?jǐn)?shù)量相當(dāng)。然而到了數(shù)量級(jí)后,象形文字?jǐn)?shù)量便不再增加了,因?yàn)闆]有人能夠?qū)W會(huì)和記住這么多的文字。于是,概念的第一次概括和歸類就開始了。在中國(guó)的象形文字中,“日”本意是太陽,但它同時(shí)又是太陽從升起到落山再到升起的時(shí)間周期,也就是我們講的一天。這種概念的聚類,在原理上與今天自然語言處理或者機(jī)器學(xué)習(xí)的聚類有很大的相似性,只是在遠(yuǎn)古,完成這個(gè)過程可能需要上千年;而今天,可能只需幾天甚至幾小時(shí),視計(jì)算機(jī)的速度和數(shù)量而定。
文字按照意思來聚類,最終會(huì)帶來一些歧義性,也就是說有時(shí)弄不清一個(gè)多義字在特定環(huán)境下它到底表示其中的哪個(gè)含義。而解決這個(gè)問題的方法,過去的先生和今天的學(xué)者也沒有什么不同,都是依靠上下文。有了上下文大多數(shù)情況下多義字的去除歧義( Disambiguation)都可以做到。當(dāng)然,總有個(gè)別做不到的時(shí)候,這就導(dǎo)致了學(xué)者們對(duì)某段話理解上的不同。中國(guó)古代學(xué)者對(duì)儒家經(jīng)典的注釋和正義,其實(shí)都是在按照自己的理解做消除歧義性的工作。今天的情況也類似,對(duì)上下文建立的概率模型再好,也有失靈的時(shí)候。這些是語言從產(chǎn)生伊始就固有的特點(diǎn)。
從公元前7世紀(jì)到了公元4世紀(jì)左右,埃及文化退出了歷史的舞臺(tái),埃及的象形文字從此失傳。后來,有人在一個(gè)叫羅塞塔( Rosetta)的地方發(fā)現(xiàn)了一塊破碎的古埃及石碑,上面有三種語言:埃及象形文字、埃及的拼音文字和古希臘文。再后來,人們根據(jù)羅塞塔石碑破解了的古埃及象形文字。可見文字本身的載體是石頭還是紙張并不重要,它所承載的信息才是最重要的。
今天,我們對(duì)5000年前埃及的了解遠(yuǎn)比對(duì)1000年前的瑪雅文明要多得多,這要?dú)w功于埃及人通過文字記錄了他們生活中最重要的信息。而對(duì)于我這個(gè)長(zhǎng)期從事自然語言處理的學(xué)者來講,這件事有兩點(diǎn)指導(dǎo)意義:1.信息的冗余是信息安全的保障。羅塞塔石碑上的內(nèi)容是同一信息重復(fù)三次,因此只要有一份內(nèi)容完好保留下來,原有的信息就不會(huì)丟失,這對(duì)信道編碼有指導(dǎo)意義。2.語言的數(shù)據(jù),我們稱之為語料,尤其是雙語或者多語的對(duì)照語料對(duì)翻譯至關(guān)重要,它是我們從事機(jī)器翻譯研究的基礎(chǔ)。了解了羅塞塔石碑的歷史,對(duì)于今天很多翻譯軟件和服務(wù)都叫作“羅塞塔”就不會(huì)覺得奇怪了。
既然文字是出現(xiàn)在遠(yuǎn)古“信息爆炸”導(dǎo)致人們的頭腦裝不下這些信息的時(shí)候,那么數(shù)字則是出現(xiàn)在人們的財(cái)產(chǎn)多到需要數(shù)一數(shù)才搞清楚有多少的時(shí)候。著名的美籍俄裔物理學(xué)家喬治·伽莫夫( George Gamow,1904-1968)在他的科普讀物《從一到無窮大》一書中講了這樣一個(gè)原始部落中的故事。兩個(gè)酋長(zhǎng)要比一比誰說的數(shù)字大,一個(gè)酋長(zhǎng)想了想,先說了“3”,第二個(gè)酋長(zhǎng)想了半天,說你贏了。因?yàn)樵谠疾柯洌镔|(zhì)極其缺乏,很少會(huì)超過3,他們就稱之為“許多”或者叫數(shù)不清。因此,在那個(gè)時(shí)代,不可能出現(xiàn)完整的計(jì)數(shù)系統(tǒng)。
對(duì)于不同位數(shù)數(shù)字的表示,中國(guó)人和羅馬人都用明確的單位來表示數(shù)字的不同量級(jí),中國(guó)人是用個(gè)十百千萬億兆;羅馬人用字符1代表1,V代表5,X代表10,L代表50,C代表100,D代表500,M代表1000,再往上就沒有了。這兩種表示法都不自覺地引入了樸素的編碼的概念:首先,它們都是用不同的符號(hào)代表不同的數(shù)字概念;第二,它們分別制定了解碼的規(guī)則。在中國(guó),解碼的規(guī)則是乘法;而在羅馬,解碼的規(guī)則是加減法。描述數(shù)字最有效的是古印度人,他們發(fā)明了包括0在內(nèi)的10個(gè)阿拉伯?dāng)?shù)字(這個(gè)0很重要,否則就需要許多描述進(jìn)制的量詞,如個(gè)十百千萬),就是今天全世界通用的數(shù)字。這種表示方法比中國(guó)和羅馬的都抽象,但是使用方便。阿拉伯?dāng)?shù)字或者說印度數(shù)字的革命性不僅在于它的簡(jiǎn)潔有效,而且標(biāo)志著數(shù)字和文字的分離。這在客觀上讓自然語言的研究和數(shù)學(xué)在幾千年里沒有重合的軌跡,而且越走越遠(yuǎn)。
象形文字到拼音文字是一個(gè)飛躍,因?yàn)槿祟愒诿枋鑫矬w的方式上,從物體的外表進(jìn)化到了抽象的概念,同時(shí)不自覺地采用了對(duì)信息的編碼。不僅如此,我們的祖先對(duì)文字的編碼還非常合理。在羅馬體系的文字中,總體來講,常用字短,生僻字長(zhǎng)。而在意型文字中,也是類似,大都常用字筆畫少,而生僻字筆畫多。這完全符合信息論中的最短編碼原理,雖然我們的祖先并不懂信息論。這種文字設(shè)計(jì)(其實(shí)是一種編碼方法)帶來的好處是書寫起來省時(shí)間、省材料。在蔡倫發(fā)明紙張以前,書寫文字不是一件容易的事情。就以中文為例,在東漢以前要將文字刻在其他物件比如龜殼、石碑和竹簡(jiǎn)上。由于刻個(gè)字的時(shí)間相當(dāng)長(zhǎng),因此要惜墨如金。這就使得我們的古文(書面文字)非常簡(jiǎn)潔,但是也非常難懂,而同時(shí)期的口語卻和今天的白話差別不大,語句較長(zhǎng)但是易懂。(嶺南客家話基本上保留了古代口語的原貌,寫出來和我們清末民初的白話頗為相似。)
這種現(xiàn)象非常符合今天信息科學(xué)(和工程)的一些基本原理,就是在通信時(shí),如果信道較寬,信息不必壓縮就可以直接傳遞;而如果信道很窄,信息在傳遞前需要盡可能地壓縮,然后在接收端進(jìn)行解壓縮。在古代,兩個(gè)人講話說得快是一個(gè)寬信道,無需壓縮;書寫來得慢是一個(gè)窄信道,需要壓縮。將日常的白話口語寫成精簡(jiǎn)的文言文本身是信道壓縮的過程,而將文言文解釋清楚是解壓縮的過程。這個(gè)現(xiàn)象與我們今天寬帶互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)上的視頻播放設(shè)定完全一致,前者是經(jīng)過寬帶傳輸,因此分辨率可以做得高得多;而后者由于空中頻道帶寬的限制,傳輸速度要慢一到兩個(gè)數(shù)量級(jí),因此分辨率要低得多。
語言從古語發(fā)展到現(xiàn)代語言,在表達(dá)含義上比以前更準(zhǔn)確、更豐富,這里面語法起到了很大的作用。如果說從字母到詞的構(gòu)詞法( Morp hology)是詞的編碼規(guī)則,那么語法則是語言的編碼和解碼規(guī)則。不過,相比較而言,詞可以被認(rèn)為是有限而且封閉的集合,而語言則是無限和開放的集合。從數(shù)學(xué)上講,對(duì)于前者可以有完備的編解碼規(guī)則,而后者則不具備這個(gè)特性。因此,任何語言都有語法規(guī)則覆蓋不到的地方,這些例外或者說不精確性,讓我們的語言豐富多彩。雖然正統(tǒng)而教條的語言學(xué)家傾向于把這些例外作為“病句并且有的人畢其一生的精力來消滅病句,純化語言,但是事實(shí)證明這種工作是徒勞的。莎士比亞的作品在他的時(shí)代完全是通俗而大眾化的,其中包括大量違反古語法的名句,那個(gè)時(shí)代就開始有人試圖完善(其實(shí)是篡改)莎士比亞戲劇。可今天這些語言不但沒有消失,反而成了經(jīng)典,而試圖完善他著作的人卻早已為大眾遺忘。
這就涉及到一個(gè)語言學(xué)研究方法的問題:到底是語言對(duì),還是語法對(duì)?前者堅(jiān)持從真實(shí)的語句文本(稱為語料)出發(fā),而后者堅(jiān)持從規(guī)則出發(fā)。經(jīng)過三四十年的爭(zhēng)論,最后實(shí)踐是檢驗(yàn)真理的唯一標(biāo)準(zhǔn),自然語言處理的成就最終宣布了前者的獲勝。