《數(shù)學(xué)之美》讀書筆記

P60228-214857.jpg

1.整體來說,這本書到底在談些什么?

談數(shù)學(xué)知識在計算機中的實際應(yīng)用,還有精妙的數(shù)學(xué)方法。

2.作者細部說了什么,怎么說的?

作者細部介紹了現(xiàn)實世界關(guān)于信息的問題(現(xiàn)象),進而用數(shù)學(xué)模型描述,細節(jié)上也說明了運用的數(shù)學(xué)方法。

3. 這本書內(nèi)容真實嗎?說得有道理嗎?是全部有道理,還是部分有道理?

真實,有道理。作者在書中介紹的內(nèi)容都已在實際中運用,不是假設(shè)和推理。

4. 這本書跟你有什么關(guān)系?這究竟有什么意義?

這本書闡述了看似無用的數(shù)學(xué)知識,在某些方面發(fā)揮了強大的作用,真真實實地向我展示了“數(shù)學(xué)之美”。對我來說,我更了解了數(shù)學(xué)在計算機中的實際應(yīng)用,數(shù)學(xué)在計算機中很重要,到底重要在哪里?書中提供了一部分有力的答案。

這篇讀書筆記應(yīng)該怎么寫?
第一,我要重新整合篇章結(jié)構(gòu),聚合相同的主題。第二,我要記下在那些美麗的數(shù)學(xué)方法。

這本書的結(jié)構(gòu)是怎樣的?


各章在書中相對時獨立的,但是又有著相同的主題——自然語言處理、搜索引擎等。各章的主題都是介紹一個數(shù)學(xué)方法,它們往往顯得“簡單”,卻又很強大,作者說這就是“數(shù)學(xué)之美”。我認為,本書的第一個主題是自然語言處理,第二個是搜索引擎,第三個是應(yīng)用到各個地方的技術(shù),第四個我分為人物專題

第一部分——自然語言處理


  1. 自然語言處理的歷史——人們最先想到的方法是讓計算機像人一樣了解自然語言的語法,進而“讀懂”自然語言,經(jīng)過了十幾年后,那些基于文法規(guī)律的模型卻被新出現(xiàn)的基于統(tǒng)計模型輕易地打敗了?;谖姆ㄒ?guī)律的模型有什么問題呢?——1.人類自然語言的規(guī)則太多,“特例”也很多,要用人工完善這些特例是一件工作量非常大的工作,導(dǎo)致這個模型的進步緩慢。2.一個簡單的句子都可以分析出一個復(fù)雜的語法樹,而復(fù)雜句子的語法樹甚至在一張紙上也畫不下,后期處理的計算量自然非常大。
  2. 基于統(tǒng)計的模型為什么那么強大?或者說,它為什么又更合理?——要解答這個問題,首先要弄清一個問題——自然語言的本質(zhì)是什么?自然語言從本質(zhì)上來說是一種上下文相關(guān)的信息,講到這里,不得不介紹信息傳播模型。


    信息傳輸模型.png
  3. 人們簡化了語言的單詞(一個單詞多種意思)和發(fā)音(一種發(fā)音多種意思),然后用上下文去消除歧義?!嬎銠C是否也能用這種方法消除歧義?如果一個句子沒有歧義,那么自然就可以得到它的意思。答案是可以,方法就是上下文相關(guān)特性的統(tǒng)計語言模型。統(tǒng)計語言模型之所以強大就是因為它與自然語言的特性更相符,也更適合計算機處理。
  4. 統(tǒng)計語言模型的原理是什么?簡單來說,“一個句子是否合理,就看他的可能性大小如何。”這個概率的計算方法可以搜索“二元文法模型”得到更細致的公式。
  5. 要想實現(xiàn)二元模型必須想要實現(xiàn)分詞,方法也是運用統(tǒng)計語言模型,假設(shè)一個句子有幾種分詞結(jié)果,ASDFGGG、DJFJDHDK、FJDKJFJDND,運用統(tǒng)計語言模型的方法就可以計算這種分詞方法的可能性,無疑可能性最大的結(jié)果是最優(yōu)的。為了簡化運算,需要用到“維特比算法”。
  6. 這樣,我們實現(xiàn)了讓機器“理解”一個句子。那么,我們能否做到讓機器去理解一段語音,顯然答案是可以的。語音識別的過程相當于觀測到一段連續(xù)信號,然后用它去推測原信號表達的意思。這時候我們就得到了一概率公式,這個公式可以用“隱含馬爾科夫模型”近似求解。
  7. 翻譯的二義性怎么解決?——信息熵——信息的作用是什么,信息的作用是消除不確定性,信息熵一方面就是這種不確定性的度量——想要消除或降低一段信息的不確定性就要引入一段新的信息去補充,然而,“美國大選的獲勝者”引入“你的年齡”這個信息,并沒有能有效降低不確定性。那么如何衡量兩段信息的相關(guān)程度?——“互信息”“ 互信息(Mutual Information)是信息論里一種有用的信息度量,它可以看成是一個隨機變量中包含的關(guān)于另一個隨機變量的信息量,或者說是一個隨機變量由于已知另一個隨機變量而減少的不肯定性。”——當我們有足夠的信息,我們就可以算出互信息。

第二部分——搜索引擎


  1. 互聯(lián)網(wǎng)上有那么多的網(wǎng)頁,為什么搜索引擎可以在很短的時間內(nèi)找到大量的結(jié)果?——建立索引,那么索引是如何工作的呢?——我們可以用一個很長的二進制數(shù)表示一個關(guān)鍵詞是否出現(xiàn)在某篇文本里,比如0001010010111001中的1表示哪些文章出現(xiàn)了這個關(guān)鍵詞,而010101001101表示了哪些文章出現(xiàn)了另外的一些關(guān)鍵詞,對它們進行簡單的布爾運算AND,我們就能得到要找的結(jié)果?!締栴}:為什么不是建立了一個關(guān)鍵詞表,然后每篇文章?lián)松梢粋€二進制數(shù),然后用關(guān)鍵詞相應(yīng)的二進制數(shù)進行匹配?例如——關(guān)鍵詞:0101000000 文獻:0101010111,有0為0,其余情況為1(布爾運算AND)可以嗎?】
  2. 那么多的網(wǎng)頁,要做以上的操作,我至少要先把它們下載回來吧,那么如何保障下載回來的網(wǎng)頁沒有重復(fù)?——圖論中的遍歷算法,廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS),簡單來說,BFS就是先搜索每個節(jié)點直接相連的其他節(jié)點,DFS就是順著一個節(jié)點的相連的節(jié)點走到底,再返回上一層繼續(xù)相同操作。書中的解釋簡單易懂,還有圖例說明。那么用什么工具去實現(xiàn)這樣的操作?——網(wǎng)絡(luò)爬蟲,同時,人們用哈希表記錄網(wǎng)頁是否下載過。那么哈希表又是怎樣記錄這些內(nèi)容?這篇文章的解釋很不錯。
  3. 那好,我們能讓用戶通過搜索得到很多的網(wǎng)頁,現(xiàn)在我們要考慮的問題是如何能讓搜索最相關(guān)的網(wǎng)頁和質(zhì)量最高的網(wǎng)頁顯示在最前面,畢竟,沒有用戶會想得到滿是廣告的搜索結(jié)果吧。Google的PageRank算法就是為了解決這個問題而生,它根據(jù)其他網(wǎng)頁對這個網(wǎng)頁的信息,例如其他網(wǎng)頁對這個網(wǎng)頁的鏈接,來確定它是否值得依賴,但事情沒有那么簡單,不同質(zhì)量的網(wǎng)站理所當然有不同的權(quán)重,要計算這個“質(zhì)量”又要先知道排名,這就變成了一個循環(huán)。那么如何解決?——二維矩陣相乘,這個算法最終實現(xiàn)的效果是無論如何取排名的初始值,都能保證結(jié)果向真實值收斂。為了解決計算量太大的問題,還要用到一種叫做“稀疏矩陣運算”的技巧。我們得到了哪些網(wǎng)頁是比較有價值的結(jié)果,但是我們?nèi)绾未_定哪些是用戶需要的內(nèi)容?——TF-IDF(詞頻-逆文本指數(shù))
  4. 防作弊問題,作弊方法:重復(fù)關(guān)鍵詞,引用鏈接。第一種方法作者說是很好解決的,第二種方法也可以用數(shù)學(xué)的方法解決。
  5. 結(jié)果的權(quán)威度——不同的信息源對不同的信息有不同的權(quán)威,

第三部分——各種技術(shù)


  1. 地址分析——有限狀態(tài)機,有限狀態(tài)機是一種特殊的有向圖,有限狀態(tài)機只能進行模糊匹配,于是又有了基于概率的有限狀態(tài)機,
  2. 全球?qū)Ш健獎討B(tài)分析,在圖論中,一個抽象的圖包括一些節(jié)點和連接他們的弧,如何考慮每條弧的權(quán)重,這個圖是加權(quán)圖,關(guān)于這個動態(tài)規(guī)劃,書中有很精彩簡單易懂的描述,但以我的理解無法更簡潔地復(fù)述了,原理是“將尋找全程最短的路線分解為一個個尋找局部路線的小問題。”
  3. 新聞分類——“計算機的本質(zhì)上只能做快速運算,為了讓計算機能夠“算”新聞”(而不是讀新聞),就要求我們先把文字的新聞變成一組可計算的數(shù)字,然后再設(shè)計一個算法來算出任何兩篇新聞的相似性?!啊唧w做法就是算出新聞中每個詞的TF-IDF值,然后按照詞匯表排成一個向量,我們就可以對這個向量進行運算了,那么如何度量兩個向量?——向量的夾角越小,那么我們就認為它們更相似,而長度因為字數(shù)的不同并沒有太大的意義?!绾斡嬎銑A角,那就用到了余弦定理(公式略)。——如何建立新聞類別的特征向量,有兩種方法,手工和自動生成。至于自動分類的方法,書本上有介紹,我這里就略過了。很巧妙,但是我的篇幅肯定是放不下的。除余弦定理之外,還可以用矩陣的方法對文本進行分類,但這種方法需要迭代很多次,對每個新聞都要兩兩計算,但是在數(shù)學(xué)上有一個十分巧妙的方法——奇異值分解(SVD)。奇異值分解,就是把上面這樣的大矩陣,分解為三個小矩陣的相乘。這三個小矩陣都有其物理含義。這種方法能夠快速處理超大規(guī)模的文本分類,但是結(jié)果略顯粗陋,如果兩種方法一前一后結(jié)合使用,既能節(jié)省時間,又提高了精確性。

Paste_Image.png

//簡書的投稿推薦無疑也用到了文本分析,不過是比較簡單的文本分析算法。

  1. 信息指紋——網(wǎng)頁本身太長,儲存5000億個網(wǎng)址就要50TB,而且對字符串的查找又比較慢,所以一種算法——偽隨機數(shù)產(chǎn)生器算法就產(chǎn)生了,它能把任意長度的整數(shù)轉(zhuǎn)化為特定長度的隨機數(shù),這樣爬蟲就能更快地識別一個網(wǎng)頁是否下載過。cookie也是一種信息指紋。書中還介紹了幾種信息指紋的用法,①判斷兩個集合是否相同,②判斷集合是否基本相同。③判斷文本是否相同。
  2. 視頻的反盜版——視頻中關(guān)鍵幀才是連續(xù)的圖像,其他幀儲存與關(guān)鍵幀的差異值,用信息指紋處理這些關(guān)鍵幀,再比對是否相同,就知道了是否盜版。
  3. RSA算法——這個算法用公鑰加密信息,而用私鑰解碼,公鑰可以公開,但是只有知道私鑰的人才能解碼,而且也不能從公鑰反推出私鑰(理論上可以,但是計算量十分巨大),這個算法幾乎可以說建立了互聯(lián)網(wǎng)安全的基礎(chǔ),2016年圖靈獎就頒發(fā)給了在互聯(lián)網(wǎng)加密做出杰出貢獻的兩位科學(xué)家。拓展閱讀
  4. 拼音輸入法的數(shù)學(xué)原理——我認為還是閱讀原文為好。

第四部分——人物專題


  • 賈里尼克——作者用一篇文章介紹他,我看到的是——少年普通,拿到MIT的全額獎學(xué)金——提出厲害的算法,在大公司IBM領(lǐng)導(dǎo)研究室,取得優(yōu)秀成果——暮年另一所大學(xué)在信息處理領(lǐng)域取得全球領(lǐng)先地位——生活簡樸。
  • 阿米特·辛格博士——作者這篇文章主要介紹辛格博士做事情的哲學(xué),先用最簡單的辦法解決80%的問題,剩下的再慢慢解決,這種做法避免了開發(fā)大而全的功能導(dǎo)致的工期過長問題,我認為在實際中是更實用的。
  • 馬庫斯與他的弟子們——馬庫斯推動了統(tǒng)計方法在自然語言處理方面的應(yīng)用,建立標準語料庫。另外介紹了三個他的學(xué)生的成績。

思維導(dǎo)圖

《數(shù)學(xué)之美》.png

讀后感


這本書在2月25號從第三章開始看,到28號看完,大約兩百七十多頁,我看這么快一方面是我跳過了我都不懂的延伸閱讀部分,因為讀懂那部分必須一些我并沒有掌握的知識;另一方面則是作者的講解非常的透徹,深入淺出,即使對相關(guān)知識了解不深,也能讀懂作者的內(nèi)容。我想,我的這篇讀書筆記是斷然寫不好,因為書中最精彩的部分,關(guān)于數(shù)學(xué)的那部分,恰恰是我不能從讀書筆記中表達出來的部分。所以我的這篇讀書筆記,是有很大的不足的,在于那些缺乏的公式和解釋。除了上面我提到的技術(shù),作者還介紹了其他的技術(shù)和數(shù)學(xué)。
其他作者介紹了的技術(shù)和數(shù)學(xué)

  1. 布隆過濾器
  2. 貝葉斯網(wǎng)絡(luò)
  3. 條件隨機場和文法分析
  4. 維特比算法
  5. CDMA技術(shù)
  6. 期望最大化算法
  7. 邏輯回歸模型
  8. 分治算法
  9. 人工神經(jīng)網(wǎng)絡(luò)
  10. 大數(shù)據(jù)
  11. NP問題

對于那些理科專業(yè)的學(xué)生,特別是數(shù)學(xué)和計算機,這本書是非常有益的,這本書適合想了解自然語言處理的專業(yè)人士,同時,這本書也適合那些并不了解這方面知識的人們,因為作者的描寫真的做到了淺白易懂。最后,我建議有興趣的朋友可以買一本《數(shù)學(xué)之美》,親自觀察數(shù)學(xué)的美麗之光。

題外話


歡迎任何想了解這本書的朋友和我交流,也歡迎指出我文章中的錯誤,良好的互動能幫助我們互相進步,: D

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 寫在之前 如需轉(zhuǎn)載,請注明出處。如有侵權(quán)或者其他問題,煩請告知。 第1章文字和語言 vs 數(shù)字和信息 文字和語言與...
    hainingwyx閱讀 1,261評論 0 2
  • 很早之前看了幾篇博文,只留下模糊印象 。這次是在學(xué)習人工智能的基礎(chǔ)知識后再看,其中研究自然語言的方法從基于規(guī)則轉(zhuǎn)變...
    輕舟閱讀 6,211評論 0 9
  • 1.1 統(tǒng)計語言模型 香農(nóng)(Claude Shannon)就提出了用數(shù)學(xué)的辦法處理自然語言。首先成功利用數(shù)學(xué)方法解...
    wzz閱讀 2,091評論 0 10
  • 在羅馬體系的文字中,總體來講,常用字短,生僻字長。而在意形文字中,也是類似。這完全符合信息論中的最短編碼原理。 在...
    李渡閱讀 761評論 0 1
  • 《《數(shù)學(xué)之美》》讀書筆記 這是我的第一篇讀書筆記,不知道為什么我覺得讀書筆記的用處變得很大,記得小時候老師讓自己寫...
    擦干眼淚我還是王閱讀 737評論 0 0

友情鏈接更多精彩內(nèi)容