
閱讀及筆記時(shí)間:2018年10月1日-2018年10月7日,約5小時(shí);
閱讀書本:《數(shù)學(xué)之美》;作者:吳軍;2014年11月第2版;人民郵電出版社;P1-312頁;
閱讀目標(biāo):為什么說數(shù)學(xué)之美?它的美體現(xiàn)在哪里?
閱讀方法:影像閱讀,快速閱讀
整書筆記及感想:
閱讀3小時(shí),筆記2小時(shí)。
前些天偶然聽到吳軍演講的一段音頻,他在音頻中講到很多人不知道學(xué)習(xí)數(shù)學(xué)有什么用?而在他看來學(xué)習(xí)數(shù)學(xué)可以練習(xí)邏輯推理能力,閱讀理解與表達(dá)能力,訓(xùn)練抽象思維能力。他的演講令我對(duì)他的作品《數(shù)學(xué)之美》產(chǎn)生了興趣。
數(shù)學(xué)是基礎(chǔ)科學(xué),它與很多學(xué)科相關(guān)。人工智能從本質(zhì)上來說就是數(shù)學(xué)模型。在《數(shù)學(xué)之美》這本書里講的其實(shí)就是數(shù)學(xué)在人工智能上的多種應(yīng)用。在我原先的理解中,所謂人工智能,機(jī)器應(yīng)該就像人腦那么聰明,它是模擬人腦的??戳诉@本書,我知道自己理解錯(cuò)了,不,它不是模擬人腦思維,而是運(yùn)用形式上簡單的數(shù)學(xué)模型去解開一個(gè)個(gè)智能(工程)難題,諸如手寫輸入、語音識(shí)別、搜索引擎、地圖導(dǎo)航、機(jī)器翻譯、自然語言處理等等。的確非常神奇!
首先吳軍博士講了為什么數(shù)學(xué)很神奇。在今天的城市里人們花時(shí)間最多的是在電視機(jī)、互聯(lián)網(wǎng)、電話上,這些都統(tǒng)稱為通信方式,這些通信方式都遵循信息論的規(guī)律,而整個(gè)信息論的基礎(chǔ)就是數(shù)學(xué)。整個(gè)通信的過程就是編碼(講話、發(fā)信息)、信息傳播(或在空氣中傳播、或在光纜中傳播)、解碼(聽到或收到的信息),這個(gè)模式古今中外都一樣。解決通信問題采用的是數(shù)學(xué)中的概率統(tǒng)計(jì)方法。
之后作者講了許多數(shù)學(xué)應(yīng)用的例子,幫助讀者對(duì)數(shù)學(xué)之美有一個(gè)較為具體而細(xì)致的認(rèn)識(shí)。作者從通信、自然語言的機(jī)器處理開始介紹。
20世紀(jì)50年代有個(gè)著名的測試叫做“圖靈測試”,就是讓人和機(jī)器進(jìn)行交流,如果人無法判斷自己交流的對(duì)象是人還是機(jī)器,那么這個(gè)機(jī)器就有智能了。當(dāng)時(shí)科學(xué)界采用的是電腦模擬人腦,首先得理解人的語言(識(shí)別人類語言的規(guī)則,基于規(guī)則的自然語言處理)才有可能識(shí)別人的語言,所以,道路曲折而艱難,進(jìn)展相當(dāng)?shù)木徛5搅?0世紀(jì)70年代,另一路科學(xué)家另辟奚徑改用通信的原理去處理自然語言,也就是基于統(tǒng)計(jì)的自然語言的機(jī)器處理,隨著計(jì)算機(jī)運(yùn)算能力的提高,數(shù)據(jù)的增多,這個(gè)方法為自然語言的機(jī)器處理打開了一條光明的道路。它的原理是在已知第一個(gè)詞的前提下,第二個(gè)詞出現(xiàn)的概率與第一個(gè)詞相關(guān)(即馬爾可夫假設(shè)),第三個(gè)詞又與第二個(gè)詞相關(guān),根據(jù)大數(shù)定理,只要統(tǒng)計(jì)量足夠,相對(duì)頻度就等于概率。
語音識(shí)別、機(jī)器翻譯也是利用統(tǒng)計(jì)語言模型計(jì)算出每種分詞后句子出現(xiàn)的概率,并找出其中概率最大的,來確定語音的識(shí)別與機(jī)器的翻譯,它運(yùn)用的是隱含馬爾可夫模型(馬爾可夫假設(shè)+獨(dú)立輸出假設(shè)),求最大值概率。這個(gè)模型最早的成功應(yīng)用是語音識(shí)別,后來又陸續(xù)成功應(yīng)用于機(jī)器翻譯、拼寫糾錯(cuò)、手寫識(shí)別、圖像處理、基因序列分析等很多IT領(lǐng)域,它也是機(jī)器學(xué)習(xí)的主要工具之一。近20年來,它還廣泛應(yīng)用于股票預(yù)測和投資。
通過信息熵來對(duì)信息的不確定性進(jìn)行度量。信息是消除系統(tǒng)不確定性的唯一辦法 ,如果沒有信息,任何公式或者數(shù)字的游戲都無法排除不確定性。幾乎所有的自然語言處理、信息與信號(hào)處理的應(yīng)用都是一個(gè)消除不確定性的過程。通過互信息來作為兩個(gè)隨機(jī)事件相關(guān)性的量化度量。完全相關(guān)時(shí),取值1,完全不相關(guān)時(shí)取值為0。互信息被廣泛用于度量一些語言現(xiàn)象的相關(guān)性。
二進(jìn)制在搜索中的計(jì)算機(jī)中的應(yīng)用。中國古代易經(jīng)中的陽爻、陰爻可以認(rèn)為是最早的二進(jìn)制雛形;到17世紀(jì)德國數(shù)學(xué)家萊布尼茲完善了二進(jìn)制,用“0”和“1”代表它的兩個(gè)數(shù)字,或者代表邏輯中的“是”與“非”;19世紀(jì)英國的布爾用數(shù)學(xué)方法解決了邏輯問題,運(yùn)算的元素只有兩個(gè)1(真)和0(假),基本的運(yùn)算只有“與”、“或”、“非”三種;1938年香農(nóng)運(yùn)用布爾代數(shù)實(shí)現(xiàn)開關(guān)電路,使之成為數(shù)字電路的基礎(chǔ),所有的數(shù)學(xué)和邏輯運(yùn)算全都能轉(zhuǎn)換成二值的布爾運(yùn)算。后來,二進(jìn)制不僅成為計(jì)算機(jī)的語言,還大量運(yùn)用在索引中,比如有3篇文獻(xiàn),則用3位的二進(jìn)制數(shù)表示一個(gè)關(guān)鍵字是否出現(xiàn)在文獻(xiàn)中,010,0代表沒有,1代表有,如果有N篇文獻(xiàn),則用N位的二進(jìn)制數(shù)表示關(guān)鍵字是否出現(xiàn)在文獻(xiàn)中。對(duì)于互聯(lián)網(wǎng)的搜索引擎來講,每一個(gè)網(wǎng)頁就是一個(gè)文獻(xiàn),因此,布爾代數(shù)模型可以快速地幫助用戶搜索。
除此之外,數(shù)學(xué)的應(yīng)用還有很多,比如,用圖論的遍歷算法自動(dòng)下載互聯(lián)網(wǎng)的網(wǎng)頁;用網(wǎng)頁與網(wǎng)頁的相關(guān)性進(jìn)行加權(quán)的民主表決來度量網(wǎng)頁的質(zhì)量(這里還涉及到二維矩陣的應(yīng)用);用相關(guān)性及加權(quán)詞頻對(duì)網(wǎng)頁進(jìn)行排名(這里會(huì)用到對(duì)數(shù)函數(shù));用有限狀態(tài)機(jī)和動(dòng)態(tài)規(guī)劃應(yīng)用在識(shí)別地址、導(dǎo)航、語音識(shí)別等領(lǐng)域;用矩陣運(yùn)算中的奇異值分解一次性把所有新聞的相關(guān)性計(jì)算出來,進(jìn)行文本的粗分類,再用余弦定理進(jìn)行精確的新聞分類。。。。。。等等非常多的應(yīng)用,因此說,數(shù)學(xué)的確有這個(gè)魅力將復(fù)雜的工程問題簡化成一個(gè)個(gè)公式,然后通過大量的機(jī)器運(yùn)算去實(shí)現(xiàn)這些功能。
最后想再強(qiáng)調(diào)一下,所謂的人工神經(jīng)網(wǎng)絡(luò),它不是什么都能思考的大腦,與其說它很聰明,不如說它很能算!計(jì)算能力的不斷提高有助于僅通過簡單的數(shù)學(xué)方法解決復(fù)雜問題。