摘錄
第一章:文字和語言 VS 數(shù)字和信息
通信的原理和信息傳播的模型、(信源)編碼和最短編碼、解碼的規(guī)則,語法、聚類、校驗位、雙魚對照文本,語料庫和機器翻譯、多義性和利用上下文消除歧義,這些今天自然語言處理學者們研究的問題,我們的祖先在設計語言的時候其實已經(jīng)遇到了,并且用類似今天的方法解決了,雖然他們的認識多是自發(fā)的,而不是自覺地。他們過去遵循的法則和我們今天探求的研究方法背后有著共同的東西,這就是數(shù)學規(guī)律。
第二章:自然語言處理——從規(guī)則到統(tǒng)計
基于統(tǒng)計的自然語言處理方法,在數(shù)學模型上和通信是相通的,甚至就是相同的。因此,在數(shù)學意義上自然語言處理又和語言的初衷——通信聯(lián)系在一起了。但是,科學家們認識到這個聯(lián)系卻花了幾十年的時間。
第三章:統(tǒng)計語言模型
馬爾可夫模型:假設任意一個詞Wi出現(xiàn)的概率直通它前面的N個詞Wi-1、Wi-2、。。。Wi-n有關(guān)。(N從1到2,從2到3對模型都有顯著的提升,當從3到4提升不再明顯)
統(tǒng)計語言模型在形式上非常簡單,任何人都很容易理解。但是里面的學問卻可以很深,一個專家可以在這方面研究很多年,比如我們在延伸閱讀中提到的那些問題。數(shù)學的魅力就在于將復雜的問題簡單化。
第四章:談談中文分詞
中文分詞以統(tǒng)計語言模型為基礎,經(jīng)過幾十年的發(fā)展和完善,今天基本上可以看做是一個已經(jīng)解決的問題。當然不同的人做的分詞器有好有壞,這里面的差別主要在數(shù)據(jù)的使用和工程實現(xiàn)的精度。
第五章:隱含馬爾可夫模型
隱含馬爾可夫模型最初應用于通信領域,繼而推廣到語音和語言處理中,成為連接自然語言處理和通信的橋梁。同事,隱含馬爾可夫模型也是極其學習主要工具之一。和幾乎所有的極其學習的模型工具一樣,它需要一個訓練算法(Baum-Welch算法)和使用時的解碼算法(維特比算法),掌握了這兩類算法,就基本上可以使用隱含馬爾可夫模型這個工具了。
第六章:信息的度量和作用
信息熵不僅是對信息的量化度量,而且是整個信息論的基礎。它對于通信、數(shù)據(jù)壓縮、自然語言處理都有很強的指導意義。信息熵的物理含義是對一個信息系統(tǒng)不確定性的度量,在這一點上,它和熱力學中熵的概念相同,因為后者是對于一個系統(tǒng)無序的度量。這說明科學上很多看似不同的學科之間也會有很強的相似性。
第七章:賈里尼克和現(xiàn)代語言處理
信息科學大師——賈里尼克
第八章:簡單之美——布爾代數(shù)和搜索引擎的索引
布爾代數(shù)(1和0,and or not)非常簡單,但是對數(shù)學和計算機發(fā)展的意義重大,它不僅把邏輯和數(shù)學合二為一,而且給了我們一個全新的視角看待世界,開創(chuàng)了今天數(shù)字化的時代。在此,讓我們用偉大科學家牛頓的一句話來結(jié)束這一章,“(人民)發(fā)覺真理在形式上從來是簡單的,而不是復雜和含混的。
第九章:圖論和網(wǎng)絡爬蟲
圖的遍歷是一件很簡單的事情,沒有多少人會去研究這件事情,也沒有多少人用得到??墒腔ヂ?lián)網(wǎng)的出現(xiàn),圖的遍歷方法一下子有了用武之地。很多數(shù)學方法就是這個樣子,看上去沒有什么實際用途,但是隨著時間的推移會一下子派上大用場。
第十章:PageRank——Google的民主表決式網(wǎng)頁 排名技術(shù)
今天,Google 搜索引擎比最初復雜、完善了許多。但是PageRank在Google所有算法中依然是至關(guān)重要的。
第十一章:如何確定網(wǎng)頁和查詢的相關(guān)性
TF-IDF是對搜索關(guān)鍵字的重要性度量,從理論上講,它有很強的理論根據(jù)。因此如果對搜索不是很精通的人,直接采用TF-IDF效果也不會太差?,F(xiàn)在各家搜索引擎對關(guān)鍵詞重要性的度量,都在TF-IDF的基礎上有些改進和微調(diào)。但是,在原理上與TF-IDF相差不遠。
第十二章:地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機和動態(tài)規(guī)劃
有限狀態(tài)機和動態(tài)規(guī)則的應用非常廣泛,遠遠不止識別地址、導航等地圖服務相關(guān)領域,它們在語音識別、拼寫和語法糾錯、拼音輸入法、工業(yè)控制和生物的序列分析等領域都有著極其重要的應用。其在拼音輸入法中也有重大作用
第十三章:Google AK-47的設計者——Dr阿米特 辛格
介紹Dr Singhal
第十四章:余弦定理和新聞的分類
1、計算所有新聞之間兩兩的余弦相似性,把相似性大于一個閾值的新聞合并成一個小類。這樣N篇新聞被合并成N1個小類。
2、把每個小類所有的新聞作為一個整體,計算小類的特征向量,再計算小類之間兩兩的余弦相似性,然后合并成大一點的小類N2. N2<N1。
第十五章:矩陣運算和文本處理中的兩個分類問題
計算大量新聞時一步到位的辦法是利用矩陣運算中的奇異值分解(SVD),得到粗分類結(jié)果,再利用計算向量余弦的方法,在粗分類結(jié)果的基礎上,進行幾次迭代,得到比較精確的結(jié)果。
第十六章:信息指紋極其應用
信息指紋可以理解成將一段信息(文字、圖片、音頻、視頻等)隨機地映射到一個多維二進制空間中的一個點(一個二進制數(shù)字)。只要這個隨機函數(shù)做得好,那么不同信息對應的這些點不會重合,因此這些二進制數(shù)字就成了原來信息所具有的獨一無二的指紋。
第十七章:由電視劇《暗算》所想到的——談談密碼學的數(shù)學原理
我們在介紹信息論中談到,利用信息可以消除一個系統(tǒng)的不確定性。而利用已經(jīng)獲得的信息情報來消除一個情報系統(tǒng)的不確定性就是解密。因此,密碼學的最高境界就是無論地方獲取多少密文,也無法消除己方情報系統(tǒng)的不確定性。為了達到這個目的,就不僅要做到密文之間相互無關(guān),同時密文還是看似完全隨機的序列。在信息誕生后,科學家們沿著這個思路設計出很好的密碼系統(tǒng),而公開秘鑰是目前最常用的加密辦法。
第十八章:閃光的不一定是金子——談談搜索引擎反作弊問題
SEO——Search Engine Optimizer 搜索引擎優(yōu)化者——作弊者
第十九章:談談數(shù)學模型的重要性
我們對任何問題總是再找相應的準確的數(shù)學模型
第二十章:不要把雞蛋放到同一個籃子里——談談最大熵模型
最大熵模型可以將各種信息整合到一個統(tǒng)一的模型中。它有很多良好的特性:從形式上看,它非常簡單,非常優(yōu)美;從效果上看,它是唯一一種可以滿足各個信息源的限制條件,同事又能保證平滑性的模型。由于最大熵模型具有這些良好的特性,它的應用范圍因而十分廣泛。但是,最大熵模型的計算量巨大,在工程上實現(xiàn)方法的好壞決定了模型的實用與否。
第二十一章:拼音輸入法的數(shù)學原理
漢字的輸入過程本身就是人和計算機的通信,好的輸入法會自覺或者不自覺地遵循通信的數(shù)學模型。當然要做出最有效的輸入法,應當自覺使用信息論做指導。
第二十二章:自然語言處理的教父馬庫斯和他的優(yōu)秀弟子們
馬庫斯主要弟子:柯林斯、布萊爾
第二十三章:布隆過濾器
布隆過濾器背后的數(shù)學原理在于兩個完全隨機的數(shù)字沖突的概率很小,因此,可以在很小的誤識別率條件下,用很少的空間存儲大量信息。常見的補救無識別的辦法是再建立一個小的白名單,存儲那些可能被誤判的信息。由于布隆過濾器中只有簡單的算術(shù)運算,因此它的速度很快使用方便。
第二十四章:馬爾可夫鏈的擴展——葉貝斯網(wǎng)絡
葉貝斯網(wǎng)絡是一個加權(quán)的有向圖,是馬爾可夫鏈的擴展。從認識的層面看,葉貝斯網(wǎng)絡克服了馬爾可夫鏈那種機械的線性的約束,它可以把任何有關(guān)聯(lián)的時間統(tǒng)一到它的框架下面。
第二十五章:條件隨機場和句法分析
條件隨機場是一個非常靈活的用于預測的統(tǒng)計模型。和最大熵模型一樣,條件隨機場的形式簡單,但是實現(xiàn)復雜。
第二十六章:維特比和他的維特比算法
高通公司創(chuàng)始人:維特比 CDMA 3G通信技術(shù)
第二十七章:再談文本自動分類問題——期望最大化算法
EM算法只需要有一些訓練數(shù)據(jù),定義一個最大化函數(shù),剩下的事情就交給計算機了。
第二十八章:邏輯回歸和廣告搜索
邏輯回歸模型是一種將影響概率的不同因素結(jié)合在一起的指數(shù)模型。和許多模型一樣,都可以采用通用迭代算法GIS和改進的迭代算法IIS來實現(xiàn)。除了在信息處理中的應用,邏輯回歸模型還廣泛應用于生物統(tǒng)計。
第二十九章:各個擊破算法和Google云計算的基礎
我們現(xiàn)在發(fā)現(xiàn)Google頗為神秘的云計算中最重要的MapReduce工具,其實原理就是計算機算法中常用的“各個擊破”法,它的原理原來這么簡單——將復雜的大問題分解成很多小問題分別求解,然后再把小問題的解合并成原始問題的解。由此可見,在生活中大量用到的,真正有用的方法往往樸實而簡單。