【數(shù)學(xué)之美】讀書(shū)筆記

個(gè)人見(jiàn)解:數(shù)學(xué)起源于數(shù),來(lái)自于對(duì)物質(zhì)世界精確的觀測(cè),可以精確的運(yùn)算。所以數(shù)學(xué)更接近物理世界;哲學(xué)起源于人們用自己的語(yǔ)言(英語(yǔ),漢語(yǔ)……)來(lái)概括世界,所以哲學(xué)更接近生活,或者說(shuō)更接近“正常人”的思考習(xí)慣。

第一章 文字和語(yǔ)言VS數(shù)字和信息

不同的文明,因?yàn)榈赜虻脑?,歷史上相互隔絕 便會(huì)有不同的文字,隨著文明的融合和沖突 不同文明下的人們需要進(jìn)行交流 或者說(shuō)通信 那么翻譯的需求便產(chǎn)生了,翻譯這件事之所以能夠達(dá)成 僅僅是因?yàn)椴煌奈淖窒到y(tǒng)在記錄信息上的能力是等價(jià)的。文字只是信息的載體 而非信息本身。

文字本身的載體是石頭還是紙張并不重要 它所承載的信息才是最重要的。

我們的祖先很聰明 他們發(fā)明了進(jìn)位制 也就是我們今天說(shuō)的逢十進(jìn)一
解碼的規(guī)則、語(yǔ)法
在中國(guó) 解碼的規(guī)則是乘法:二百萬(wàn)=2 * 100 * 10000;
在羅馬 解碼的規(guī)則是減法:IV V VII 小數(shù)字出現(xiàn)在大數(shù)字左邊為減,右邊為加。
古印度人發(fā)明了包括0在內(nèi)的10個(gè)阿拉伯?dāng)?shù)字。

將日常的白話口語(yǔ)寫(xiě)成精簡(jiǎn)的文言文本身是信道壓縮的的過(guò)程 而將文言文解釋清楚是解壓縮的過(guò)程。

在蔡倫發(fā)明紙張之前 書(shū)寫(xiě)文字是很困難的問(wèn)題 要惜墨如金。所以古文非常簡(jiǎn)潔 但非常難懂 但同時(shí)期的口語(yǔ)卻和今天的白話差別不大 語(yǔ)句較長(zhǎng)但是易懂。 這種現(xiàn)象非常符合今天信息科學(xué)(和工程)的一些基本原理,就是在通信時(shí),若信道較寬 信息不必壓縮就可以直接傳遞;而如果信道很窄 信息在傳遞前需要盡可能壓縮 然后再接收端進(jìn)行解壓縮。

當(dāng)猶太學(xué)者抄完一頁(yè)《圣經(jīng)》時(shí) 需要把每一行的文字加起來(lái),看看新的校驗(yàn)碼是不是和原文相同,然后對(duì)每一頁(yè)進(jìn)行同樣的處理。類(lèi)似于今天計(jì)算機(jī)和通信中校檢碼的方法。


第二章 自然語(yǔ)言處理——從規(guī)則到統(tǒng)計(jì)

語(yǔ)言的出現(xiàn)是為了人類(lèi)之間的通信。任何一種語(yǔ)言都是一種編碼的方式 而語(yǔ)言的語(yǔ)法規(guī)則時(shí)編解碼的算法。表達(dá)一種意思 就是用這種語(yǔ)言的編碼方式對(duì)頭腦中的信息做了一次編碼,編碼的結(jié)果就是一串文字。而如果對(duì)方懂得這門(mén)語(yǔ)言 他就可以用這門(mén)語(yǔ)言的解碼方法獲得說(shuō)話人要表達(dá)的信息。這就是語(yǔ)言的數(shù)學(xué)本質(zhì)

1956年的夏天 在“達(dá)特茅斯夏季人工智能研究會(huì)議”提出了人工智能這個(gè)提法。(真是可怕 六十多年前 科學(xué)家就在討論人工智能、神經(jīng)網(wǎng)絡(luò)等技術(shù))該會(huì)議的一一超過(guò)10個(gè)圖靈獎(jiǎng)。這十位被稱(chēng)為時(shí)20世紀(jì)it領(lǐng)域最優(yōu)秀的科學(xué)家 開(kāi)創(chuàng)了很多今天依然活躍的研究領(lǐng)域。
即使學(xué)了十年的語(yǔ)法 也不能涵蓋所有的英語(yǔ)。
自然語(yǔ)言

自然語(yǔ)言通常是指一種自然地隨文化演化的語(yǔ)言。英語(yǔ)、漢語(yǔ)、日語(yǔ)為自然語(yǔ)言的例子,而世界語(yǔ)則為人造語(yǔ)言,即是一種由人蓄意為某些特定目的而創(chuàng)造的語(yǔ)言。 不過(guò),有時(shí)所有人類(lèi)使用的語(yǔ)言(包括上述自然地隨文化演化的語(yǔ)言,以及人造語(yǔ)言)都會(huì)被視為"自然"語(yǔ)言,以相對(duì)于如編程語(yǔ)言等為計(jì)算機(jī)而設(shè)的"人造"語(yǔ)言。這一種用法可見(jiàn)于自然語(yǔ)言處理一詞中。自然語(yǔ)言是人類(lèi)交流和思維的主要工具。

自然語(yǔ)言處理是人工智能中最為困難的問(wèn)題之一,而對(duì)自然語(yǔ)言處理的研究也是充滿魅力和挑戰(zhàn)的。隨著計(jì)算機(jī)和互聯(lián)網(wǎng)的廣泛應(yīng)用,,也隨之衍生出了一系列的產(chǎn)品。相對(duì)而言,截止到2012年,國(guó)外在該領(lǐng)域的研究投入和成果都相對(duì)領(lǐng)先于國(guó)內(nèi),尤其漢語(yǔ)天然就相對(duì)于其他語(yǔ)種更為復(fù)雜,更為難以分析。

基于規(guī)則的句法很快就走到了盡頭。統(tǒng)計(jì)語(yǔ)言學(xué)的出現(xiàn)使得自然語(yǔ)言處理得到重生。
基于規(guī)則的自然語(yǔ)言處理和基于統(tǒng)計(jì)的自然語(yǔ)言處理的爭(zhēng)執(zhí)持續(xù)了15年左右的原因:
1.一種新的研究方法的成熟需要很多年。
2.需要等原有一批語(yǔ)言學(xué)家退休。

老科學(xué)家可以理解為“老的科學(xué)家”和“老科學(xué)的家”兩種。若是后者 他們年紀(jì)不算老 但是已經(jīng)落伍 大家必須耐心等待他們退休讓出位子。畢竟不是所有人都樂(lè)意改變自己的觀點(diǎn),無(wú)論對(duì)錯(cuò)。


第三章 統(tǒng)計(jì)語(yǔ)言模型

賈利尼克出發(fā)點(diǎn):一個(gè)句子是否合理 就看看它的可能性大小如何。至于可能性就用概率來(lái)衡量。

基本原理:N元模型(假設(shè)前提:句中的每個(gè)詞和前面的所有詞有關(guān))和二元模型(假設(shè)前提:句中的每個(gè)詞只和前面的一個(gè)詞有關(guān))
大數(shù)定律,只要統(tǒng)計(jì)量夠足 相對(duì)頻率就等于概率

當(dāng)N從1上升到2 再?gòu)?到3時(shí) 模型的效果上升顯著。而當(dāng)模型從3到4時(shí) 效果的提升就不是很顯著了 而資源耗費(fèi)的特別快 所以 除非是不惜資源為了做到極致 很少有人使用四元以上的模型。Google的羅塞塔翻譯系統(tǒng)和語(yǔ)言搜索系統(tǒng) 使用的是四元模型 。

訓(xùn)練數(shù)據(jù)通常是越多越好。
數(shù)學(xué)的魅力就在于將復(fù)雜的問(wèn)題簡(jiǎn)單化。


第四章 談?wù)勚形姆衷~

中文分詞方法可以幫助判別英語(yǔ)單詞的邊界。
任何方法都有其局限性 統(tǒng)計(jì)語(yǔ)言模型很大程序上時(shí)依照“大眾的想法”或者“多數(shù)句子的用法” 而在特定情況下可能是錯(cuò)的。
分詞器的選用的所謂正確的人工粉刺的數(shù)據(jù)是如何得來(lái)的。不能講一個(gè)準(zhǔn)確率在97%的分詞器就比95%的要好 只能講與人工分詞結(jié)果的吻合度稍微高一點(diǎn)而已。人工分詞不一樣的原因主要在于人們對(duì)詞的顆粒度的認(rèn)識(shí)問(wèn)題。

最好的方法是讓一個(gè)分詞器同時(shí)支持不同層次的詞的切分。由不同的應(yīng)用自行決定采用哪個(gè)顆粒度的劃分。


第五章 隱含馬爾可夫模型

語(yǔ)音識(shí)別就是聽(tīng)話的人去猜測(cè)說(shuō)話者要表達(dá)的意思。這其實(shí)就像通信中 根據(jù)接收端收到的信號(hào)去分析、理解、還原發(fā)送端傳送過(guò)來(lái)的信息。

我們平時(shí)在說(shuō)話時(shí) 腦子就是一個(gè)信息源。我們的喉嚨(聲帶)、空氣 就是如電線和光纜一般的信道。聽(tīng)眾的耳朵就是接收器 而聽(tīng)到的聲音就是傳送過(guò)來(lái)的信號(hào)。根據(jù)聲學(xué)信號(hào)來(lái)推測(cè)說(shuō)話者的意思 就是語(yǔ)音識(shí)別。若接收端時(shí)一臺(tái)計(jì)算機(jī)而不是人 那么計(jì)算機(jī)要做的就是語(yǔ)音的自動(dòng)識(shí)別。


第六章 信息的度量和作用

信息熵 (shang) 量化信息 解決了信息的度量問(wèn)題。

信息熵:信息是個(gè)很抽象的概念。人們常常說(shuō)信息很多,或者信息較少,但卻很難說(shuō)清楚信息到底有多少。比如一本五十萬(wàn)字的中文書(shū)到底有多少信息量。通常,一個(gè)信源發(fā)送出什么符號(hào)是不確定的,衡量它可以根據(jù)其出現(xiàn)的概率來(lái)度量。概率大,出現(xiàn)機(jī)會(huì)多,不確定性?。环粗痛?。
不確定性函數(shù)f是概率P的單調(diào)遞降函數(shù);兩個(gè)獨(dú)立符號(hào)所產(chǎn)生的不確定性應(yīng)等于各自不確定性之和,即f(P1,P2)=f(P1)+f(P2),這稱(chēng)為可加性。同時(shí)滿足這兩個(gè)條件的函數(shù)f是對(duì)數(shù)函數(shù),即

image.png

在信源中,考慮的不是某一單個(gè)符號(hào)發(fā)生的不確定性,而是要考慮這個(gè)信源所有可能發(fā)生情況的平均不確定性。若信源符號(hào)有n種取值:U1…Ui…Un,對(duì)應(yīng)概率為:P1…Pi…Pn,且各種符號(hào)的出現(xiàn)彼此獨(dú)立。這時(shí),信源的平均不確定性應(yīng)當(dāng)為單個(gè)符號(hào)不確定性-logPi的統(tǒng)計(jì)平均值(E),可稱(chēng)為信息熵,即
image.png

式中對(duì)數(shù)一般取2為底,單位為比特。但是,也可以取其它對(duì)數(shù)底,采用其它相應(yīng)的單位,它們間可用換底公式換算。
直到1948年,香農(nóng)提出了“信息熵”的概念,才解決了對(duì)信息的量化度量問(wèn)題。信息熵這個(gè)詞是C.E.香農(nóng)從熱力學(xué)中借用過(guò)來(lái)的。熱力學(xué)中的熱熵是表示分子狀態(tài)混亂程度的物理量。香農(nóng)用信息熵的概念來(lái)描述信源的不確定度。
信息論之父克勞德·艾爾伍德·香農(nóng)第一次用數(shù)學(xué)語(yǔ)言闡明了概率與信息冗余度的關(guān)系。

《博弈圣經(jīng)》

信息熵:信息的基本作用就是消除人們對(duì)事物的不確定性。多數(shù)粒子組合之后,在它似像非像的形態(tài)上押上有價(jià)值的數(shù)碼,具體地說(shuō),這就是一個(gè)在博弈對(duì)局中現(xiàn)象信息的混亂。
香農(nóng)指出,它的準(zhǔn)確信息量應(yīng)該是
-(p1*log(2,p1) + p2 * log(2,p2) +?。?p32 *log(2,p32)),

image.png

信息熵
其中,p1,p2 , ...,p32 分別是這 32 個(gè)球隊(duì)奪冠的概率。香農(nóng)把它稱(chēng)為“信息熵” (Entropy),一般用符號(hào) H 表示,單位是比特。

有興趣的讀者可以推算一下當(dāng) 32 個(gè)球隊(duì)奪冠概率相同時(shí),對(duì)應(yīng)的信息熵等于五比特。有數(shù)學(xué)基礎(chǔ)的讀者還可以證明上面公式的值不可能大于五。對(duì)于任意一個(gè)隨機(jī)變量 X(比如得冠軍的球隊(duì)),它的熵定義如下:

變量的不確定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。

信息熵是信息論中用于度量信息量的一個(gè)概念。一個(gè)系統(tǒng)越是有序,信息熵就越低;

反之,一個(gè)系統(tǒng)越是混亂,信息熵就越高。所以,信息熵也可以說(shuō)是系統(tǒng)有序化程度的一個(gè)度量。

一條信息的信息量和它的不確定性有著直接的關(guān)系。

比如我們要搞清楚意見(jiàn)非常不確定的事情 或是我們一無(wú)所知的事情 需要了解大量的信息。相反 如果我們對(duì)一件事已經(jīng)有了較多的了解 那么就不需要太多的信息就能把它搞清楚。所以 從這個(gè)角度看 信息量就等于不確定的多少。

香農(nóng)用“比特”(bit)這個(gè)概念來(lái)度量信息量。

冗余度:

如果一本書(shū)重復(fù)的內(nèi)容很多 它的信息量就小 冗余度就大.

簡(jiǎn)單地說(shuō),所謂冗余度,就是從安全角度考慮多余的一個(gè)量,這個(gè)量就是為了保障儀器、設(shè)備或某項(xiàng)工作在非正常情況下也能正常運(yùn)轉(zhuǎn)。目前大多現(xiàn)代產(chǎn)品和工程設(shè)計(jì)中都應(yīng)用了冗余度這個(gè)思想和理論。在許多醫(yī)療單位中藥品存量不足,衛(wèi)生材料存量不夠,一遇突發(fā)事件,就會(huì)造成缺貨,造成漲價(jià)風(fēng)波,影響社會(huì)安定。在我們的醫(yī)院中,由于各項(xiàng)費(fèi)用都與經(jīng)濟(jì)效益掛鉤,醫(yī)療設(shè)備等衛(wèi)生裝備冗余度很不夠,基本上只能按平時(shí)的正常運(yùn)轉(zhuǎn)設(shè)置,甚至有的都沒(méi)達(dá)到。一遇突發(fā)事件,這點(diǎn)裝備就顯得嚴(yán)重不足。

冗余度,通俗的講就是數(shù)據(jù)的重復(fù)度。在一個(gè)數(shù)據(jù)集合中重復(fù)的數(shù)據(jù)稱(chēng)為數(shù)據(jù)冗余

在數(shù)據(jù)傳輸中,由于衰減或干擾會(huì)使數(shù)據(jù)代碼發(fā)生突變,此時(shí)就要提高數(shù)據(jù)代碼的抗干擾能力.
這必須在原二進(jìn)制代碼長(zhǎng)度的基礎(chǔ)上增加幾位二進(jìn)制代碼的長(zhǎng)度,使相應(yīng)數(shù)據(jù)具有一定的冗余度,也稱(chēng)做富裕度.

在地理信息系統(tǒng)中,數(shù)據(jù)冗余度的計(jì)算公式是:

R=1-(Q/mn)
式中:Q為相鄰屬性值變化次數(shù)的累加和
m為行數(shù)
n為列數(shù)

漢語(yǔ)在所有語(yǔ)言中冗余度是相對(duì)小的。一本英文書(shū) 翻譯成漢語(yǔ) 若字體大小相同 那么中譯本一般都會(huì)薄很多。漢語(yǔ)相對(duì)是比較簡(jiǎn)潔的語(yǔ)言。

信息是消除系統(tǒng)不確定性的唯一辦法 (在沒(méi)有獲得任何信息前 一個(gè)系統(tǒng)就像是一個(gè)黑盒子 引入信息 就可以了解黑盒子系統(tǒng)的內(nèi)部結(jié)構(gòu))

第7章 賈利尼克和現(xiàn)代語(yǔ)言處理

每當(dāng)弗萊德和我談?wù)撈鸶髯陨倌陼r(shí)的教育時(shí),我們都同意這樣幾個(gè)觀點(diǎn)。首先 小學(xué)生和中學(xué)生其實(shí)沒(méi)必要花這么多時(shí)間讀書(shū) 而他們的社會(huì)經(jīng)驗(yàn)、生活能力以及在那時(shí)樹(shù)立起的志向?qū)椭麄兊囊簧?,第? 中學(xué)階段可以花很多時(shí)間比同伴多讀的課程 在大學(xué)以后用非常短的時(shí)間就可以讀完 因?yàn)樵诖髮W(xué)階段 人的理解能力要強(qiáng)得多,舉個(gè)例子 在中學(xué)需要花500個(gè)小時(shí)才能學(xué)會(huì)的內(nèi)容 在大學(xué)可能花100個(gè)小時(shí)就夠了。一次 一個(gè)學(xué)生在中小學(xué)階段建立的那一點(diǎn)點(diǎn)優(yōu)勢(shì)在大學(xué)很快就會(huì)喪失殆盡。第三 學(xué)習(xí)(和教育)是一個(gè)人一輩子的過(guò)程 很多成績(jī)好的亞裔學(xué)生進(jìn)入名校后表現(xiàn)明顯不如那些因興趣而讀書(shū)的美國(guó)同伴 因?yàn)榍罢卟粩嘧x書(shū)的動(dòng)力不足。第四 書(shū)本的內(nèi)容可以早學(xué) 也可以晚學(xué) 但是錯(cuò)過(guò)了成長(zhǎng)階段卻是無(wú)法彌補(bǔ)過(guò)來(lái)的。(因此 少年班的做法不可?。?/p>

我一直認(rèn)為 一個(gè)人想要在自己的領(lǐng)域中做到世界一流 他的周?chē)仨氂蟹浅6嗟囊涣魅宋铩?br> 大多數(shù)時(shí)候 很多的歷史偶然性背后有著它必然的原因 統(tǒng)計(jì)自然語(yǔ)言處理誕生于IBM看似有些偶然 但是當(dāng)時(shí)只有IBM才有這樣的計(jì)算能力 又有物質(zhì)條件同時(shí)聚集起一大批世界上最聰明的頭腦。

賈利尼克從頭做起 他主要做了兩件大事 兩件小事。兩件大事是 首先 從美國(guó)正讀主管研究的部門(mén)里申請(qǐng)到了很多研究經(jīng)費(fèi) 然后每年夏天 他用一部分驚飛 邀請(qǐng)世界上20-30名頂級(jí)的科學(xué)家和學(xué)生到CLSP一起工作 使得CLSP成為世界上語(yǔ)音和語(yǔ)言處理的中心之一。 兩件小事是指:首先他招募了一批當(dāng)時(shí)很有潛力的年輕學(xué)者 利用自己的影響力 在暑期把他們派到世界上最好的公司去實(shí)習(xí) 通過(guò)學(xué)生的優(yōu)異表現(xiàn) 樹(shù)立起CLSP在培養(yǎng)人才方面的聲譽(yù)。

第8章 布爾代數(shù)和搜索引擎的索引

文獻(xiàn)索引和布爾運(yùn)算的關(guān)系。對(duì)于一個(gè)用戶輸入的關(guān)鍵詞,搜索引擎要判斷每篇文獻(xiàn)是否含有這個(gè)關(guān)鍵詞 若一篇文獻(xiàn)中含有它 我們相應(yīng)的就給這篇文獻(xiàn)一個(gè)邏輯值——真(TRUE或1)  否則 給一個(gè)邏輯值——假?。‵ALSE或0)。

布爾代數(shù)對(duì)于數(shù)學(xué)的意義等同于量子力學(xué)對(duì)于物理學(xué)的意義 它們將我們對(duì)世界的認(rèn)識(shí)從連續(xù)狀態(tài)擴(kuò)展到離散狀態(tài)。
搜索引擎在零點(diǎn)零幾秒鐘找到成千上萬(wàn)甚至上億的搜索結(jié)果。暗藏的技巧就是建索引   可以聯(lián)系到圖書(shū)館的索引 基于數(shù)據(jù)庫(kù)的  至今如此 數(shù)據(jù)庫(kù)的查詢(xún)語(yǔ)句(SQL)支持各種負(fù)責(zé)的邏輯組合  但背后的基本原理都是基于布爾運(yùn)算的。

當(dāng)索引特別大的時(shí)候 這些索引需要通過(guò)分布式的方式存儲(chǔ)到不同的服務(wù)器上,普遍的做法就是根據(jù)王爺?shù)男蛱?hào)將索引分成很多份  分別存儲(chǔ)在不同的服務(wù)器中。每當(dāng)接受一個(gè)查詢(xún)時(shí) 這個(gè)查詢(xún)就被分到=發(fā)到許許多多服務(wù)器中 這些服務(wù)器同時(shí)并行處理用戶請(qǐng)求 并把結(jié)果送到主服務(wù)器進(jìn)行合并處理 最后將結(jié)果返回給用戶。
“(人們)發(fā)覺(jué)真理在形式上從來(lái)是簡(jiǎn)單的 而不是復(fù)雜和含混的。”

第9章 圖論和網(wǎng)絡(luò)爬蟲(chóng)

這里來(lái)介紹圖論和互聯(lián)網(wǎng)自動(dòng)下載工具網(wǎng)絡(luò)爬蟲(chóng) 之間的關(guān)系。
圖論的起源可追溯到大數(shù)學(xué)家歐拉誕生的那個(gè)年代。

廣度優(yōu)先搜索
深度優(yōu)先搜索

互聯(lián)網(wǎng)可以看成一張大圖——可以把每一個(gè)網(wǎng)頁(yè)當(dāng)作一個(gè)節(jié)點(diǎn) 把那些超鏈接當(dāng)作連接網(wǎng)絡(luò)的弧。
有了超鏈接 我們可以從任何一個(gè)網(wǎng)頁(yè)出發(fā) 用圖的遍歷算法 自動(dòng)的訪問(wèn)到每一個(gè)網(wǎng)頁(yè)并把它們存起來(lái) 完成這個(gè)功能的程序叫做網(wǎng)絡(luò)爬蟲(chóng) 或者在一些文獻(xiàn)中稱(chēng)為“機(jī)器人”。
假定從一家門(mén)戶網(wǎng)站的首頁(yè)觸發(fā) 先下載這個(gè)網(wǎng)頁(yè) 也就知道了這家猛虎網(wǎng)站首頁(yè)所直接鏈接的全部網(wǎng)頁(yè) 諸如雅虎郵件、雅虎財(cái)經(jīng) 雅虎新聞等。接下來(lái)訪問(wèn)、下載并分析這家門(mén)戶網(wǎng)站的郵件等網(wǎng)頁(yè) 又能找到其他相連的網(wǎng)頁(yè)。讓計(jì)算機(jī)不停的做下去 就能下載整個(gè)的互聯(lián)網(wǎng)。當(dāng)然也要記錄哪個(gè)網(wǎng)頁(yè)下載過(guò)了 在網(wǎng)絡(luò)爬蟲(chóng)中 使用一個(gè)稱(chēng)為“哈希表”的列表來(lái)記錄。
定理:如果一個(gè)圖能夠從一個(gè)頂點(diǎn)出發(fā) 每條邊不重復(fù)的遍歷一遍回到這個(gè)頂點(diǎn) 那么每一頂點(diǎn)的度必須為偶數(shù)。

搜索引擎的網(wǎng)絡(luò)爬蟲(chóng)問(wèn)題更應(yīng)該定義為“如何在有限時(shí)間內(nèi)最多的爬下最重要的網(wǎng)頁(yè)”。顯然各個(gè)網(wǎng)站最重要的應(yīng)該是它的首頁(yè)。如果爬蟲(chóng)特別小 只能下載非常有限的網(wǎng)頁(yè) 那么應(yīng)該下載的是所有網(wǎng)站的首頁(yè) 如果把爬蟲(chóng)再擴(kuò)大些 應(yīng)該爬下從首頁(yè)直接鏈接的網(wǎng)頁(yè)。在這個(gè)前提下 顯然BFS(廣度優(yōu)先)明顯優(yōu)于DFS(深度優(yōu)先)。

在圖論出現(xiàn)后的很長(zhǎng)一段時(shí)間 現(xiàn)實(shí)世界中圖的大小都是在幾千個(gè)街店以下的規(guī)模。那時(shí)候圖的遍歷是一件很簡(jiǎn)單的事情 因此再工業(yè)界沒(méi)有多少人專(zhuān)門(mén)研究這個(gè)問(wèn)題。過(guò)去 即使是計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生 大部分人也體會(huì)不到這個(gè)領(lǐng)域的研究有什么實(shí)際用處 因?yàn)榇蠹以诠ぷ髦锌赡芤惠呑佣加貌坏剿?br> 很多數(shù)學(xué)方法就是這樣 看上去沒(méi)有什么實(shí)際用途 但是隨著時(shí)間的推移會(huì)一下子派上大用場(chǎng)。這恐怕是世界上還有很多人畢生研究數(shù)學(xué)的原因。

第10章 PageRank——Google的民主表決式網(wǎng)頁(yè)排名技術(shù)

對(duì)于大部分用戶的查詢(xún) 今天的搜索引擎 都會(huì)返回成千上萬(wàn)條結(jié)果 那么應(yīng)該如何排序 把用戶最想看到的結(jié)果排在前面呢?這個(gè)問(wèn)題很大程度上決定了搜索引擎的質(zhì)量。
總的來(lái)說(shuō) 對(duì)于一個(gè)特定的查詢(xún) 搜索結(jié)果的排名取決于兩組信息 關(guān)于網(wǎng)頁(yè)的質(zhì)量信息(quality),和這個(gè)查詢(xún)與每個(gè)網(wǎng)頁(yè)的相關(guān)性信息(relevance)。這一章介紹衡量網(wǎng)頁(yè)質(zhì)量的方法 下一張介紹度量搜索關(guān)鍵詞和網(wǎng)頁(yè)相關(guān)性的方法。

PageRank的核心思想:在互聯(lián)網(wǎng)上 如果一個(gè)網(wǎng)頁(yè)被很多其他網(wǎng)頁(yè)所鏈接 說(shuō)明它受到普遍的承認(rèn)和信賴(lài) 那么它的排名就高。于是要給這些鏈接以較大的權(quán)重。

網(wǎng)頁(yè)排名的高明之處在于它把整個(gè)互聯(lián)網(wǎng)當(dāng)作一個(gè)整體來(lái)對(duì)待。

第11章 如何確定網(wǎng)頁(yè)和查詢(xún)的相關(guān)性

如何度量網(wǎng)頁(yè)和查詢(xún)的相關(guān)性

需要根據(jù)網(wǎng)頁(yè)的長(zhǎng)度 對(duì)關(guān)鍵詞的次數(shù)進(jìn)行歸一化 也就是用關(guān)鍵詞的次數(shù)除以網(wǎng)頁(yè)的總字?jǐn)?shù)。我們把這個(gè)商稱(chēng)為“關(guān)鍵詞的頻率”。

度量網(wǎng)頁(yè)和查詢(xún)的相關(guān)性 有一個(gè)較簡(jiǎn)單的方法 就是直接使用各個(gè)關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的總詞頻。

一個(gè)小漏洞 “的”這種類(lèi)型的詞占了詞頻的80%以上 而他對(duì)確定網(wǎng)頁(yè)的主題幾乎沒(méi)什么用處。我們稱(chēng)這種詞為“停止詞”。也就是說(shuō) 在度量相關(guān)性時(shí) 不應(yīng)考慮它們的頻率。
權(quán)重的設(shè)定必須滿足下面兩個(gè)條件:

1.一個(gè)詞預(yù)測(cè)主題的能力越強(qiáng) 權(quán)重越大 反之 權(quán)重越小。
2.停止詞的權(quán)重為0.

第12章 地圖和本地搜索的最基本技術(shù)——有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃

智能手機(jī)的定位和導(dǎo)航功能 里面的關(guān)鍵技術(shù)只有三個(gè):第一時(shí)利用衛(wèi)星定位;第二是地址的識(shí)別;第三 根據(jù)用戶輸入的起點(diǎn)和終點(diǎn) 在地圖上規(guī)劃最短路線或者最快路線。

一個(gè)有限的狀態(tài)機(jī)是一個(gè)特殊的有向圖 包括一些狀態(tài)(節(jié)點(diǎn))和連接這些狀態(tài)的有向弧。
有限狀態(tài)機(jī)(英語(yǔ):finite-state machine,縮寫(xiě)FSM)又稱(chēng)有限狀態(tài)自動(dòng)機(jī),簡(jiǎn)稱(chēng)狀態(tài)機(jī),是表示有限個(gè)狀態(tài)以及在這些狀態(tài)之間的轉(zhuǎn)移和動(dòng)作等行為的數(shù)學(xué)模型。

image.png

使用有限狀態(tài)機(jī)識(shí)別地址 關(guān)鍵要解決兩個(gè)問(wèn)題 即通過(guò)一些有效的地址建立狀態(tài)機(jī) 以及給定一個(gè)有限狀態(tài)機(jī)后 地址字串的匹配算法。

第14章 余弦定理和新聞的分類(lèi)

TF-IDF

英語(yǔ):term frequency–inverse document frequency)

向量距離的度量

若兩個(gè)新聞屬于同一類(lèi) 它們的特征向量在某幾個(gè)維度的值都比較大 而在其他維度的值就比較小。
可以通過(guò)計(jì)算兩個(gè)向量的夾角來(lái)判斷對(duì)應(yīng)的新聞主題的接近程度。余弦=1時(shí),兩向量夾角為零 兩條新聞完全相同。

第15章 信息指紋及其應(yīng)用

只要產(chǎn)生隨機(jī)數(shù)的算法足夠好 就能保證幾乎不可能有兩個(gè)字符串的指紋相同 就如同不可能有兩個(gè)人的指紋相同一樣。

首先 將這個(gè)字符串看成是一個(gè)特殊的 長(zhǎng)度很長(zhǎng)的整數(shù)。一個(gè)產(chǎn)生信息指紋的關(guān)鍵算法:偽隨機(jī)數(shù)產(chǎn)生器算法 通過(guò)它能將任意很長(zhǎng)的整數(shù)轉(zhuǎn)換成特定長(zhǎng)度的偽隨機(jī)數(shù)。
信息指紋的用途遠(yuǎn)不止網(wǎng)址的消重 它的孿生兄弟是密碼。信息指紋的一個(gè)特征是不可逆性 也就是無(wú)法根據(jù)信息指紋推出原有信息。這種性質(zhì) 正是網(wǎng)絡(luò)加密所需要的。

這本書(shū)的目的是講“道”,而不是去講多么具體的“術(shù)”。因?yàn)楹芏嗑唧w的技術(shù)很快就會(huì)變得落伍。追求“術(shù)”的人,一輩子都會(huì)很辛苦。只有掌握了技術(shù)的本質(zhì)和精髓,做事才能游刃有余。

阿米特·辛格。他是美國(guó)工程院院士,谷歌公司內(nèi)的一位技術(shù)大神。辛格做事情的哲學(xué),是先幫助用戶解決80%的問(wèn)題,再慢慢解決剩下20%的問(wèn)題,這就讓他總是能在較短的時(shí)間里較好的解決問(wèn)題。阿米特·辛格還奉行簡(jiǎn)單的哲學(xué),他認(rèn)為最簡(jiǎn)單的東西往往是最好的。因?yàn)樗J(rèn)為越簡(jiǎn)單的事情越容易解釋道理,這樣可以方便查找錯(cuò)誤。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 寫(xiě)在之前 如需轉(zhuǎn)載,請(qǐng)注明出處。如有侵權(quán)或者其他問(wèn)題,煩請(qǐng)告知。 第1章文字和語(yǔ)言 vs 數(shù)字和信息 文字和語(yǔ)言與...
    hainingwyx閱讀 1,261評(píng)論 0 2
  • 1.整體來(lái)說(shuō),這本書(shū)到底在談些什么? 談數(shù)學(xué)知識(shí)在計(jì)算機(jī)中的實(shí)際應(yīng)用,還有精妙的數(shù)學(xué)方法。 2.作者細(xì)部說(shuō)了什么,...
    游冶星河閱讀 4,263評(píng)論 3 12
  • 之前本科在北郵參加一個(gè)講座的拍攝時(shí),有幸與本書(shū)作者合影。當(dāng)時(shí)是我還不是很了解吳軍博士,只覺(jué)得他是個(gè)很厲害的人。當(dāng)讀...
    跑者小越閱讀 810評(píng)論 0 0
  • 很早之前看了幾篇博文,只留下模糊印象 。這次是在學(xué)習(xí)人工智能的基礎(chǔ)知識(shí)后再看,其中研究自然語(yǔ)言的方法從基于規(guī)則轉(zhuǎn)變...
    輕舟閱讀 6,205評(píng)論 0 9
  • 其實(shí)是代謝不完體內(nèi)垃圾? 每天都在少吃,少吃,可還不瘦[疑問(wèn)] 原因是因?yàn)槟憔邆淞税l(fā)胖的條件 第一:體內(nèi)濕毒重! ...
    云彩有話說(shuō)閱讀 273評(píng)論 0 0

友情鏈接更多精彩內(nèi)容