個(gè)人見(jiàn)解：數(shù)學(xué)起源于數(shù)，來(lái)自于對(duì)物質(zhì)世界精確的觀測(cè)，可以精確的運(yùn)算。所以數(shù)學(xué)更接近物理世界；哲學(xué)起源于人們用自己的語(yǔ)言（英語(yǔ)，漢語(yǔ)……）來(lái)概括世界，所以哲學(xué)更接近生活，或者說(shuō)更接近“正常人”的思考習(xí)慣。

第一章文字和語(yǔ)言VS數(shù)字和信息

不同的文明，因?yàn)榈赜虻脑?，歷史上相互隔絕便會(huì)有不同的文字，隨著文明的融合和沖突不同文明下的人們需要進(jìn)行交流或者說(shuō)通信那么翻譯的需求便產(chǎn)生了，翻譯這件事之所以能夠達(dá)成僅僅是因?yàn)椴煌奈淖窒到y(tǒng)在記錄信息上的能力是等價(jià)的。文字只是信息的載體而非信息本身。

文字本身的載體是石頭還是紙張并不重要它所承載的信息才是最重要的。

我們的祖先很聰明他們發(fā)明了進(jìn)位制也就是我們今天說(shuō)的逢十進(jìn)一
解碼的規(guī)則、語(yǔ)法
在中國(guó) 解碼的規(guī)則是乘法：二百萬(wàn)=2 * 100 * 10000；
在羅馬解碼的規(guī)則是減法：IV V VII 小數(shù)字出現(xiàn)在大數(shù)字左邊為減，右邊為加。
古印度人發(fā)明了包括0在內(nèi)的10個(gè)阿拉伯?dāng)?shù)字。

將日常的白話口語(yǔ)寫(xiě)成精簡(jiǎn)的文言文本身是信道壓縮的的過(guò)程而將文言文解釋清楚是解壓縮的過(guò)程。

在蔡倫發(fā)明紙張之前書(shū)寫(xiě)文字是很困難的問(wèn)題要惜墨如金。所以古文非常簡(jiǎn)潔但非常難懂但同時(shí)期的口語(yǔ)卻和今天的白話差別不大語(yǔ)句較長(zhǎng)但是易懂。這種現(xiàn)象非常符合今天信息科學(xué)（和工程）的一些基本原理，就是在通信時(shí)，若信道較寬信息不必壓縮就可以直接傳遞；而如果信道很窄信息在傳遞前需要盡可能壓縮然后再接收端進(jìn)行解壓縮。

當(dāng)猶太學(xué)者抄完一頁(yè)《圣經(jīng)》時(shí) 需要把每一行的文字加起來(lái)，看看新的校驗(yàn)碼是不是和原文相同，然后對(duì)每一頁(yè)進(jìn)行同樣的處理。類(lèi)似于今天計(jì)算機(jī)和通信中校檢碼的方法。

第二章自然語(yǔ)言處理——從規(guī)則到統(tǒng)計(jì)

語(yǔ)言的出現(xiàn)是為了人類(lèi)之間的通信。任何一種語(yǔ)言都是一種編碼的方式而語(yǔ)言的語(yǔ)法規(guī)則時(shí)編解碼的算法。表達(dá)一種意思就是用這種語(yǔ)言的編碼方式對(duì)頭腦中的信息做了一次編碼，編碼的結(jié)果就是一串文字。而如果對(duì)方懂得這門(mén)語(yǔ)言他就可以用這門(mén)語(yǔ)言的解碼方法獲得說(shuō)話人要表達(dá)的信息。這就是語(yǔ)言的數(shù)學(xué)本質(zhì)

1956年的夏天在“達(dá)特茅斯夏季人工智能研究會(huì)議”提出了人工智能這個(gè)提法。（真是可怕六十多年前科學(xué)家就在討論人工智能、神經(jīng)網(wǎng)絡(luò)等技術(shù)）該會(huì)議的一一超過(guò)10個(gè)圖靈獎(jiǎng)。這十位被稱(chēng)為時(shí)20世紀(jì)it領(lǐng)域最優(yōu)秀的科學(xué)家開(kāi)創(chuàng)了很多今天依然活躍的研究領(lǐng)域。
即使學(xué)了十年的語(yǔ)法也不能涵蓋所有的英語(yǔ)。
自然語(yǔ)言

自然語(yǔ)言通常是指一種自然地隨文化演化的語(yǔ)言。英語(yǔ)、漢語(yǔ)、日語(yǔ)為自然語(yǔ)言的例子，而世界語(yǔ)則為人造語(yǔ)言，即是一種由人蓄意為某些特定目的而創(chuàng)造的語(yǔ)言。不過(guò)，有時(shí)所有人類(lèi)使用的語(yǔ)言(包括上述自然地隨文化演化的語(yǔ)言，以及人造語(yǔ)言)都會(huì)被視為"自然"語(yǔ)言，以相對(duì)于如編程語(yǔ)言等為計(jì)算機(jī)而設(shè)的"人造"語(yǔ)言。這一種用法可見(jiàn)于自然語(yǔ)言處理一詞中。自然語(yǔ)言是人類(lèi)交流和思維的主要工具。

自然語(yǔ)言處理是人工智能中最為困難的問(wèn)題之一，而對(duì)自然語(yǔ)言處理的研究也是充滿魅力和挑戰(zhàn)的。隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的廣泛應(yīng)用，，也隨之衍生出了一系列的產(chǎn)品。相對(duì)而言，截止到2012年，國(guó)外在該領(lǐng)域的研究投入和成果都相對(duì)領(lǐng)先于國(guó)內(nèi)，尤其漢語(yǔ)天然就相對(duì)于其他語(yǔ)種更為復(fù)雜，更為難以分析。

基于規(guī)則的句法很快就走到了盡頭。統(tǒng)計(jì)語(yǔ)言學(xué)的出現(xiàn)使得自然語(yǔ)言處理得到重生。
基于規(guī)則的自然語(yǔ)言處理和基于統(tǒng)計(jì)的自然語(yǔ)言處理的爭(zhēng)執(zhí)持續(xù)了15年左右的原因：
1.一種新的研究方法的成熟需要很多年。
2.需要等原有一批語(yǔ)言學(xué)家退休。

老科學(xué)家可以理解為“老的科學(xué)家”和“老科學(xué)的家”兩種。若是后者他們年紀(jì)不算老但是已經(jīng)落伍大家必須耐心等待他們退休讓出位子。畢竟不是所有人都樂(lè)意改變自己的觀點(diǎn)，無(wú)論對(duì)錯(cuò)。

第三章統(tǒng)計(jì)語(yǔ)言模型

賈利尼克出發(fā)點(diǎn)：一個(gè)句子是否合理就看看它的可能性大小如何。至于可能性就用概率來(lái)衡量。

基本原理：N元模型（假設(shè)前提：句中的每個(gè)詞和前面的所有詞有關(guān)）和二元模型（假設(shè)前提：句中的每個(gè)詞只和前面的一個(gè)詞有關(guān)）
大數(shù)定律，只要統(tǒng)計(jì)量夠足相對(duì)頻率就等于概率

當(dāng)N從1上升到2 再?gòu)?到3時(shí) 模型的效果上升顯著。而當(dāng)模型從3到4時(shí) 效果的提升就不是很顯著了而資源耗費(fèi)的特別快所以除非是不惜資源為了做到極致很少有人使用四元以上的模型。Google的羅塞塔翻譯系統(tǒng)和語(yǔ)言搜索系統(tǒng) 使用的是四元模型。

訓(xùn)練數(shù)據(jù)通常是越多越好。
數(shù)學(xué)的魅力就在于將復(fù)雜的問(wèn)題簡(jiǎn)單化。

第四章談?wù)勚形姆衷~

中文分詞方法可以幫助判別英語(yǔ)單詞的邊界。
任何方法都有其局限性統(tǒng)計(jì)語(yǔ)言模型很大程序上時(shí)依照“大眾的想法”或者“多數(shù)句子的用法” 而在特定情況下可能是錯(cuò)的。
分詞器的選用的所謂正確的人工粉刺的數(shù)據(jù)是如何得來(lái)的。不能講一個(gè)準(zhǔn)確率在97%的分詞器就比95%的要好只能講與人工分詞結(jié)果的吻合度稍微高一點(diǎn)而已。人工分詞不一樣的原因主要在于人們對(duì)詞的顆粒度的認(rèn)識(shí)問(wèn)題。

最好的方法是讓一個(gè)分詞器同時(shí)支持不同層次的詞的切分。由不同的應(yīng)用自行決定采用哪個(gè)顆粒度的劃分。

第五章隱含馬爾可夫模型

語(yǔ)音識(shí)別就是聽(tīng)話的人去猜測(cè)說(shuō)話者要表達(dá)的意思。這其實(shí)就像通信中根據(jù)接收端收到的信號(hào)去分析、理解、還原發(fā)送端傳送過(guò)來(lái)的信息。

我們平時(shí)在說(shuō)話時(shí) 腦子就是一個(gè)信息源。我們的喉嚨（聲帶）、空氣就是如電線和光纜一般的信道。聽(tīng)眾的耳朵就是接收器而聽(tīng)到的聲音就是傳送過(guò)來(lái)的信號(hào)。根據(jù)聲學(xué)信號(hào)來(lái)推測(cè)說(shuō)話者的意思就是語(yǔ)音識(shí)別。若接收端時(shí)一臺(tái)計(jì)算機(jī)而不是人那么計(jì)算機(jī)要做的就是語(yǔ)音的自動(dòng)識(shí)別。

第六章信息的度量和作用

信息熵（shang）量化信息解決了信息的度量問(wèn)題。

信息熵：信息是個(gè)很抽象的概念。人們常常說(shuō)信息很多，或者信息較少，但卻很難說(shuō)清楚信息到底有多少。比如一本五十萬(wàn)字的中文書(shū)到底有多少信息量。通常，一個(gè)信源發(fā)送出什么符號(hào)是不確定的，衡量它可以根據(jù)其出現(xiàn)的概率來(lái)度量。概率大，出現(xiàn)機(jī)會(huì)多，不確定性?。环粗痛?。
不確定性函數(shù)f是概率P的單調(diào)遞降函數(shù)；兩個(gè)獨(dú)立符號(hào)所產(chǎn)生的不確定性應(yīng)等于各自不確定性之和，即f（P₁，P₂）=f（P₁）+f（P₂），這稱(chēng)為可加性。同時(shí)滿足這兩個(gè)條件的函數(shù)f是對(duì)數(shù)函數(shù)，即

image.png

在信源中，考慮的不是某一單個(gè)符號(hào)發(fā)生的不確定性，而是要考慮這個(gè)信源所有可能發(fā)生情況的平均不確定性。若信源符號(hào)有n種取值：U₁…U_i…U_n，對(duì)應(yīng)概率為：P₁…Pi…P_n，且各種符號(hào)的出現(xiàn)彼此獨(dú)立。這時(shí)，信源的平均不確定性應(yīng)當(dāng)為單個(gè)符號(hào)不確定性-logP_i的統(tǒng)計(jì)平均值（E），可稱(chēng)為信息熵，即

image.png

式中對(duì)數(shù)一般取2為底，單位為比特。但是，也可以取其它對(duì)數(shù)底，采用其它相應(yīng)的單位，它們間可用換底公式換算。
直到1948年，香農(nóng)提出了“信息熵”的概念，才解決了對(duì)信息的量化度量問(wèn)題。信息熵這個(gè)詞是C．E．香農(nóng)從熱力學(xué)中借用過(guò)來(lái)的。熱力學(xué)中的熱熵是表示分子狀態(tài)混亂程度的物理量。香農(nóng)用信息熵的概念來(lái)描述信源的不確定度。
信息論之父克勞德·艾爾伍德·香農(nóng)第一次用數(shù)學(xué)語(yǔ)言闡明了概率與信息冗余度的關(guān)系。

《博弈圣經(jīng)》

信息熵：信息的基本作用就是消除人們對(duì)事物的不確定性。多數(shù)粒子組合之后，在它似像非像的形態(tài)上押上有價(jià)值的數(shù)碼，具體地說(shuō)，這就是一個(gè)在博弈對(duì)局中現(xiàn)象信息的混亂。
香農(nóng)指出，它的準(zhǔn)確信息量應(yīng)該是
-(p1*log(2,p1) + p2 * log(2,p2) +?。?p32 *log(2,p32))，

image.png

信息熵
其中，p1，p2 ，　．．．，p32 分別是這 32 個(gè)球隊(duì)奪冠的概率。香農(nóng)把它稱(chēng)為“信息熵” (Entropy)，一般用符號(hào) H 表示，單位是比特。

有興趣的讀者可以推算一下當(dāng) 32 個(gè)球隊(duì)奪冠概率相同時(shí)，對(duì)應(yīng)的信息熵等于五比特。有數(shù)學(xué)基礎(chǔ)的讀者還可以證明上面公式的值不可能大于五。對(duì)于任意一個(gè)隨機(jī)變量 X（比如得冠軍的球隊(duì)），它的熵定義如下：

變量的不確定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。

信息熵是信息論中用于度量信息量的一個(gè)概念。一個(gè)系統(tǒng)越是有序，信息熵就越低；

反之，一個(gè)系統(tǒng)越是混亂，信息熵就越高。所以，信息熵也可以說(shuō)是系統(tǒng)有序化程度的一個(gè)度量。

一條信息的信息量和它的不確定性有著直接的關(guān)系。

比如我們要搞清楚意見(jiàn)非常不確定的事情或是我們一無(wú)所知的事情需要了解大量的信息。相反如果我們對(duì)一件事已經(jīng)有了較多的了解那么就不需要太多的信息就能把它搞清楚。所以從這個(gè)角度看 信息量就等于不確定的多少。

香農(nóng)用“比特”（bit）這個(gè)概念來(lái)度量信息量。

冗余度：

如果一本書(shū)重復(fù)的內(nèi)容很多它的信息量就小冗余度就大.

簡(jiǎn)單地說(shuō)，所謂冗余度，就是從安全角度考慮多余的一個(gè)量，這個(gè)量就是為了保障儀器、設(shè)備或某項(xiàng)工作在非正常情況下也能正常運(yùn)轉(zhuǎn)。目前大多現(xiàn)代產(chǎn)品和工程設(shè)計(jì)中都應(yīng)用了冗余度這個(gè)思想和理論。在許多醫(yī)療單位中藥品存量不足，衛(wèi)生材料存量不夠，一遇突發(fā)事件，就會(huì)造成缺貨，造成漲價(jià)風(fēng)波，影響社會(huì)安定。在我們的醫(yī)院中，由于各項(xiàng)費(fèi)用都與經(jīng)濟(jì)效益掛鉤，醫(yī)療設(shè)備等衛(wèi)生裝備冗余度很不夠，基本上只能按平時(shí)的正常運(yùn)轉(zhuǎn)設(shè)置，甚至有的都沒(méi)達(dá)到。一遇突發(fā)事件，這點(diǎn)裝備就顯得嚴(yán)重不足。

冗余度，通俗的講就是數(shù)據(jù)的重復(fù)度。在一個(gè)數(shù)據(jù)集合中重復(fù)的數(shù)據(jù)稱(chēng)為數(shù)據(jù)冗余

在數(shù)據(jù)傳輸中，由于衰減或干擾會(huì)使數(shù)據(jù)代碼發(fā)生突變，此時(shí)就要提高數(shù)據(jù)代碼的抗干擾能力．
這必須在原二進(jìn)制代碼長(zhǎng)度的基礎(chǔ)上增加幾位二進(jìn)制代碼的長(zhǎng)度，使相應(yīng)數(shù)據(jù)具有一定的冗余度，也稱(chēng)做富裕度．

在地理信息系統(tǒng)中，數(shù)據(jù)冗余度的計(jì)算公式是：

R=1-（Q/mn）
式中：Q為相鄰屬性值變化次數(shù)的累加和
m為行數(shù)
n為列數(shù)

漢語(yǔ)在所有語(yǔ)言中冗余度是相對(duì)小的。一本英文書(shū) 翻譯成漢語(yǔ) 若字體大小相同那么中譯本一般都會(huì)薄很多。漢語(yǔ)相對(duì)是比較簡(jiǎn)潔的語(yǔ)言。

信息是消除系統(tǒng)不確定性的唯一辦法（在沒(méi)有獲得任何信息前一個(gè)系統(tǒng)就像是一個(gè)黑盒子引入信息就可以了解黑盒子系統(tǒng)的內(nèi)部結(jié)構(gòu)）

第7章賈利尼克和現(xiàn)代語(yǔ)言處理

每當(dāng)弗萊德和我談?wù)撈鸶髯陨倌陼r(shí)的教育時(shí)，我們都同意這樣幾個(gè)觀點(diǎn)。首先小學(xué)生和中學(xué)生其實(shí)沒(méi)必要花這么多時(shí)間讀書(shū) 而他們的社會(huì)經(jīng)驗(yàn)、生活能力以及在那時(shí)樹(shù)立起的志向?qū)椭麄兊囊簧?，第? 中學(xué)階段可以花很多時(shí)間比同伴多讀的課程在大學(xué)以后用非常短的時(shí)間就可以讀完因?yàn)樵诖髮W(xué)階段人的理解能力要強(qiáng)得多，舉個(gè)例子在中學(xué)需要花500個(gè)小時(shí)才能學(xué)會(huì)的內(nèi)容在大學(xué)可能花100個(gè)小時(shí)就夠了。一次一個(gè)學(xué)生在中小學(xué)階段建立的那一點(diǎn)點(diǎn)優(yōu)勢(shì)在大學(xué)很快就會(huì)喪失殆盡。第三學(xué)習(xí)（和教育）是一個(gè)人一輩子的過(guò)程很多成績(jī)好的亞裔學(xué)生進(jìn)入名校后表現(xiàn)明顯不如那些因興趣而讀書(shū)的美國(guó)同伴因?yàn)榍罢卟粩嘧x書(shū)的動(dòng)力不足。第四書(shū)本的內(nèi)容可以早學(xué) 也可以晚學(xué) 但是錯(cuò)過(guò)了成長(zhǎng)階段卻是無(wú)法彌補(bǔ)過(guò)來(lái)的。（因此少年班的做法不可?。?/p>

我一直認(rèn)為一個(gè)人想要在自己的領(lǐng)域中做到世界一流他的周?chē)仨氂蟹浅６嗟囊涣魅宋铩?br> 大多數(shù)時(shí)候很多的歷史偶然性背后有著它必然的原因統(tǒng)計(jì)自然語(yǔ)言處理誕生于IBM看似有些偶然但是當(dāng)時(shí)只有IBM才有這樣的計(jì)算能力又有物質(zhì)條件同時(shí)聚集起一大批世界上最聰明的頭腦。

賈利尼克從頭做起他主要做了兩件大事兩件小事。兩件大事是首先從美國(guó)正讀主管研究的部門(mén)里申請(qǐng)到了很多研究經(jīng)費(fèi) 然后每年夏天他用一部分驚飛邀請(qǐng)世界上20-30名頂級(jí)的科學(xué)家和學(xué)生到CLSP一起工作　使得CLSP成為世界上語(yǔ)音和語(yǔ)言處理的中心之一。兩件小事是指：首先他招募了一批當(dāng)時(shí)很有潛力的年輕學(xué)者利用自己的影響力在暑期把他們派到世界上最好的公司去實(shí)習(xí) 通過(guò)學(xué)生的優(yōu)異表現(xiàn) 樹(shù)立起CLSP在培養(yǎng)人才方面的聲譽(yù)。

第8章布爾代數(shù)和搜索引擎的索引

文獻(xiàn)索引和布爾運(yùn)算的關(guān)系。對(duì)于一個(gè)用戶輸入的關(guān)鍵詞，搜索引擎要判斷每篇文獻(xiàn)是否含有這個(gè)關(guān)鍵詞若一篇文獻(xiàn)中含有它我們相應(yīng)的就給這篇文獻(xiàn)一個(gè)邏輯值——真（TRUE或１）　　否則　給一個(gè)邏輯值——假?。‵ALSE或０）。

布爾代數(shù)對(duì)于數(shù)學(xué)的意義等同于量子力學(xué)對(duì)于物理學(xué)的意義　它們將我們對(duì)世界的認(rèn)識(shí)從連續(xù)狀態(tài)擴(kuò)展到離散狀態(tài)。
搜索引擎在零點(diǎn)零幾秒鐘找到成千上萬(wàn)甚至上億的搜索結(jié)果。暗藏的技巧就是建索引　　　可以聯(lián)系到圖書(shū)館的索引　基于數(shù)據(jù)庫(kù)的　　至今如此　數(shù)據(jù)庫(kù)的查詢(xún)語(yǔ)句（SQL）支持各種負(fù)責(zé)的邏輯組合　　但背后的基本原理都是基于布爾運(yùn)算的。

當(dāng)索引特別大的時(shí)候　這些索引需要通過(guò)分布式的方式存儲(chǔ)到不同的服務(wù)器上，普遍的做法就是根據(jù)王爺?shù)男蛱?hào)將索引分成很多份　　分別存儲(chǔ)在不同的服務(wù)器中。每當(dāng)接受一個(gè)查詢(xún)時(shí)　這個(gè)查詢(xún)就被分到＝發(fā)到許許多多服務(wù)器中　這些服務(wù)器同時(shí)并行處理用戶請(qǐng)求　并把結(jié)果送到主服務(wù)器進(jìn)行合并處理　最后將結(jié)果返回給用戶。
“（人們）發(fā)覺(jué)真理在形式上從來(lái)是簡(jiǎn)單的　而不是復(fù)雜和含混的。”

第9章圖論和網(wǎng)絡(luò)爬蟲(chóng)

這里來(lái)介紹圖論和互聯(lián)網(wǎng)自動(dòng)下載工具網(wǎng)絡(luò)爬蟲(chóng) 之間的關(guān)系。
圖論的起源可追溯到大數(shù)學(xué)家歐拉誕生的那個(gè)年代。

廣度優(yōu)先搜索
深度優(yōu)先搜索

互聯(lián)網(wǎng)可以看成一張大圖——可以把每一個(gè)網(wǎng)頁(yè)當(dāng)作一個(gè)節(jié)點(diǎn) 把那些超鏈接當(dāng)作連接網(wǎng)絡(luò)的弧。
有了超鏈接我們可以從任何一個(gè)網(wǎng)頁(yè)出發(fā) 用圖的遍歷算法自動(dòng)的訪問(wèn)到每一個(gè)網(wǎng)頁(yè)并把它們存起來(lái) 完成這個(gè)功能的程序叫做網(wǎng)絡(luò)爬蟲(chóng) 或者在一些文獻(xiàn)中稱(chēng)為“機(jī)器人”。
假定從一家門(mén)戶網(wǎng)站的首頁(yè)觸發(fā) 先下載這個(gè)網(wǎng)頁(yè) 也就知道了這家猛虎網(wǎng)站首頁(yè)所直接鏈接的全部網(wǎng)頁(yè) 諸如雅虎郵件、雅虎財(cái)經(jīng) 雅虎新聞等。接下來(lái)訪問(wèn)、下載并分析這家門(mén)戶網(wǎng)站的郵件等網(wǎng)頁(yè) 又能找到其他相連的網(wǎng)頁(yè)。讓計(jì)算機(jī)不停的做下去就能下載整個(gè)的互聯(lián)網(wǎng)。當(dāng)然也要記錄哪個(gè)網(wǎng)頁(yè)下載過(guò)了在網(wǎng)絡(luò)爬蟲(chóng)中使用一個(gè)稱(chēng)為“哈希表”的列表來(lái)記錄。
定理：如果一個(gè)圖能夠從一個(gè)頂點(diǎn)出發(fā) 每條邊不重復(fù)的遍歷一遍回到這個(gè)頂點(diǎn) 那么每一頂點(diǎn)的度必須為偶數(shù)。

搜索引擎的網(wǎng)絡(luò)爬蟲(chóng)問(wèn)題更應(yīng)該定義為“如何在有限時(shí)間內(nèi)最多的爬下最重要的網(wǎng)頁(yè)”。顯然各個(gè)網(wǎng)站最重要的應(yīng)該是它的首頁(yè)。如果爬蟲(chóng)特別小只能下載非常有限的網(wǎng)頁(yè) 那么應(yīng)該下載的是所有網(wǎng)站的首頁(yè) 如果把爬蟲(chóng)再擴(kuò)大些應(yīng)該爬下從首頁(yè)直接鏈接的網(wǎng)頁(yè)。在這個(gè)前提下顯然BFS（廣度優(yōu)先）明顯優(yōu)于DFS（深度優(yōu)先）。

在圖論出現(xiàn)后的很長(zhǎng)一段時(shí)間現(xiàn)實(shí)世界中圖的大小都是在幾千個(gè)街店以下的規(guī)模。那時(shí)候圖的遍歷是一件很簡(jiǎn)單的事情因此再工業(yè)界沒(méi)有多少人專(zhuān)門(mén)研究這個(gè)問(wèn)題。過(guò)去即使是計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生大部分人也體會(huì)不到這個(gè)領(lǐng)域的研究有什么實(shí)際用處因?yàn)榇蠹以诠ぷ髦锌赡芤惠呑佣加貌坏剿?br> 很多數(shù)學(xué)方法就是這樣看上去沒(méi)有什么實(shí)際用途但是隨著時(shí)間的推移會(huì)一下子派上大用場(chǎng)。這恐怕是世界上還有很多人畢生研究數(shù)學(xué)的原因。

第10章 PageRank——Google的民主表決式網(wǎng)頁(yè)排名技術(shù)

對(duì)于大部分用戶的查詢(xún) 今天的搜索引擎都會(huì)返回成千上萬(wàn)條結(jié)果那么應(yīng)該如何排序把用戶最想看到的結(jié)果排在前面呢？這個(gè)問(wèn)題很大程度上決定了搜索引擎的質(zhì)量。
總的來(lái)說(shuō) 對(duì)于一個(gè)特定的查詢(xún) 搜索結(jié)果的排名取決于兩組信息關(guān)于網(wǎng)頁(yè)的質(zhì)量信息（quality），和這個(gè)查詢(xún)與每個(gè)網(wǎng)頁(yè)的相關(guān)性信息（relevance）。這一章介紹衡量網(wǎng)頁(yè)質(zhì)量的方法下一張介紹度量搜索關(guān)鍵詞和網(wǎng)頁(yè)相關(guān)性的方法。

PageRank的核心思想：在互聯(lián)網(wǎng)上如果一個(gè)網(wǎng)頁(yè)被很多其他網(wǎng)頁(yè)所鏈接說(shuō)明它受到普遍的承認(rèn)和信賴(lài) 那么它的排名就高。于是要給這些鏈接以較大的權(quán)重。

網(wǎng)頁(yè)排名的高明之處在于它把整個(gè)互聯(lián)網(wǎng)當(dāng)作一個(gè)整體來(lái)對(duì)待。

第11章如何確定網(wǎng)頁(yè)和查詢(xún)的相關(guān)性

如何度量網(wǎng)頁(yè)和查詢(xún)的相關(guān)性

需要根據(jù)網(wǎng)頁(yè)的長(zhǎng)度對(duì)關(guān)鍵詞的次數(shù)進(jìn)行歸一化也就是用關(guān)鍵詞的次數(shù)除以網(wǎng)頁(yè)的總字?jǐn)?shù)。我們把這個(gè)商稱(chēng)為“關(guān)鍵詞的頻率”。

度量網(wǎng)頁(yè)和查詢(xún)的相關(guān)性有一個(gè)較簡(jiǎn)單的方法就是直接使用各個(gè)關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的總詞頻。

一個(gè)小漏洞 “的”這種類(lèi)型的詞占了詞頻的80%以上而他對(duì)確定網(wǎng)頁(yè)的主題幾乎沒(méi)什么用處。我們稱(chēng)這種詞為“停止詞”。也就是說(shuō) 在度量相關(guān)性時(shí) 不應(yīng)考慮它們的頻率。
權(quán)重的設(shè)定必須滿足下面兩個(gè)條件：

1.一個(gè)詞預(yù)測(cè)主題的能力越強(qiáng) 權(quán)重越大反之權(quán)重越小。
2.停止詞的權(quán)重為0.

第12章地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃

智能手機(jī)的定位和導(dǎo)航功能里面的關(guān)鍵技術(shù)只有三個(gè)：第一時(shí)利用衛(wèi)星定位；第二是地址的識(shí)別；第三根據(jù)用戶輸入的起點(diǎn)和終點(diǎn) 在地圖上規(guī)劃最短路線或者最快路線。

一個(gè)有限的狀態(tài)機(jī)是一個(gè)特殊的有向圖包括一些狀態(tài)（節(jié)點(diǎn)）和連接這些狀態(tài)的有向弧。
有限狀態(tài)機(jī)（英語(yǔ)：finite-state machine，縮寫(xiě)：FSM）又稱(chēng)有限狀態(tài)自動(dòng)機(jī)，簡(jiǎn)稱(chēng)狀態(tài)機(jī)，是表示有限個(gè)狀態(tài)以及在這些狀態(tài)之間的轉(zhuǎn)移和動(dòng)作等行為的數(shù)學(xué)模型。

image.png

使用有限狀態(tài)機(jī)識(shí)別地址關(guān)鍵要解決兩個(gè)問(wèn)題即通過(guò)一些有效的地址建立狀態(tài)機(jī) 以及給定一個(gè)有限狀態(tài)機(jī)后地址字串的匹配算法。

第14章余弦定理和新聞的分類(lèi)

TF-IDF

英語(yǔ)：term frequency–inverse document frequency）

向量距離的度量

若兩個(gè)新聞屬于同一類(lèi) 它們的特征向量在某幾個(gè)維度的值都比較大而在其他維度的值就比較小。
可以通過(guò)計(jì)算兩個(gè)向量的夾角來(lái)判斷對(duì)應(yīng)的新聞主題的接近程度。余弦=1時(shí)，兩向量夾角為零兩條新聞完全相同。

第15章信息指紋及其應(yīng)用

只要產(chǎn)生隨機(jī)數(shù)的算法足夠好就能保證幾乎不可能有兩個(gè)字符串的指紋相同就如同不可能有兩個(gè)人的指紋相同一樣。

首先將這個(gè)字符串看成是一個(gè)特殊的長(zhǎng)度很長(zhǎng)的整數(shù)。一個(gè)產(chǎn)生信息指紋的關(guān)鍵算法：偽隨機(jī)數(shù)產(chǎn)生器算法通過(guò)它能將任意很長(zhǎng)的整數(shù)轉(zhuǎn)換成特定長(zhǎng)度的偽隨機(jī)數(shù)。
信息指紋的用途遠(yuǎn)不止網(wǎng)址的消重它的孿生兄弟是密碼。信息指紋的一個(gè)特征是不可逆性也就是無(wú)法根據(jù)信息指紋推出原有信息。這種性質(zhì) 正是網(wǎng)絡(luò)加密所需要的。

這本書(shū)的目的是講“道”，而不是去講多么具體的“術(shù)”。因?yàn)楹芏嗑唧w的技術(shù)很快就會(huì)變得落伍。追求“術(shù)”的人，一輩子都會(huì)很辛苦。只有掌握了技術(shù)的本質(zhì)和精髓，做事才能游刃有余。

阿米特·辛格。他是美國(guó)工程院院士，谷歌公司內(nèi)的一位技術(shù)大神。辛格做事情的哲學(xué)，是先幫助用戶解決80%的問(wèn)題，再慢慢解決剩下20%的問(wèn)題，這就讓他總是能在較短的時(shí)間里較好的解決問(wèn)題。阿米特·辛格還奉行簡(jiǎn)單的哲學(xué)，他認(rèn)為最簡(jiǎn)單的東西往往是最好的。因?yàn)樗J(rèn)為越簡(jiǎn)單的事情越容易解釋道理，這樣可以方便查找錯(cuò)誤。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

【數(shù)學(xué)之美】讀書(shū)筆記

【數(shù)學(xué)之美】讀書(shū)筆記

第一章文字和語(yǔ)言VS數(shù)字和信息

第二章自然語(yǔ)言處理——從規(guī)則到統(tǒng)計(jì)

第三章統(tǒng)計(jì)語(yǔ)言模型

第四章談?wù)勚形姆衷~

第五章隱含馬爾可夫模型

第六章信息的度量和作用

《博弈圣經(jīng)》

冗余度：

第7章賈利尼克和現(xiàn)代語(yǔ)言處理

第8章布爾代數(shù)和搜索引擎的索引

第9章圖論和網(wǎng)絡(luò)爬蟲(chóng)

第10章 PageRank——Google的民主表決式網(wǎng)頁(yè)排名技術(shù)

第11章如何確定網(wǎng)頁(yè)和查詢(xún)的相關(guān)性

第12章地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃

第14章余弦定理和新聞的分類(lèi)

第15章信息指紋及其應(yīng)用

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

【數(shù)學(xué)之美】讀書(shū)筆記

第一章 文字和語(yǔ)言VS數(shù)字和信息

第二章 自然語(yǔ)言處理——從規(guī)則到統(tǒng)計(jì)

第三章 統(tǒng)計(jì)語(yǔ)言模型

第四章 談?wù)勚形姆衷~

第五章 隱含馬爾可夫模型

第六章 信息的度量和作用

《博弈圣經(jīng)》

冗余度：

第7章 賈利尼克和現(xiàn)代語(yǔ)言處理

第8章 布爾代數(shù)和搜索引擎的索引

第9章 圖論和網(wǎng)絡(luò)爬蟲(chóng)

第10章 PageRank——Google的民主表決式網(wǎng)頁(yè)排名技術(shù)

第11章 如何確定網(wǎng)頁(yè)和查詢(xún)的相關(guān)性

第12章 地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃

第14章 余弦定理和新聞的分類(lèi)

第15章 信息指紋及其應(yīng)用

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第一章文字和語(yǔ)言VS數(shù)字和信息

第二章自然語(yǔ)言處理——從規(guī)則到統(tǒng)計(jì)

第三章統(tǒng)計(jì)語(yǔ)言模型

第四章談?wù)勚形姆衷~

第五章隱含馬爾可夫模型

第六章信息的度量和作用

第7章賈利尼克和現(xiàn)代語(yǔ)言處理

第8章布爾代數(shù)和搜索引擎的索引

第9章圖論和網(wǎng)絡(luò)爬蟲(chóng)

第11章如何確定網(wǎng)頁(yè)和查詢(xún)的相關(guān)性

第12章地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃

第14章余弦定理和新聞的分類(lèi)

第15章信息指紋及其應(yīng)用