
推薦序(李善友)
“用不確定的眼光看待世界,再用信息來消除這種不確定性”,是大數(shù)據(jù)解決智能問題的本質(zhì)。
世界的不確定性來自兩個方面,一是影響世界的變量太多以至于無法用數(shù)學(xué)模型來描述;二是來自客觀世界本身:不確定性是我們所在宇宙的特性。
機(jī)器智能革命的發(fā)生來自大數(shù)據(jù)量的積累達(dá)到質(zhì)變的奇點(diǎn)。
第一章 ? ?數(shù)據(jù)——人類建造文明的基石
信息是關(guān)于世界、人和事的描述,它比數(shù)據(jù)來的抽象。信息可以是人類創(chuàng)造的,比如兩個人的通話記錄,也可以是天然存在的,比如地球的面積和質(zhì)量。
數(shù)據(jù)最大的作用在于承載信息,但并非所有的數(shù)據(jù)都承載了有意義的信息。數(shù)據(jù)本身是人造物,因此他可以被隨意制造,甚至可以被偽造。
對數(shù)據(jù)和信息進(jìn)行處理后,人類就可以獲得知識。知識比信息更高一個層次,也更加抽象,它具有系統(tǒng)性的特征。比如測量星球的相對位置和對應(yīng)的時間,就得到了數(shù)據(jù);通過這些數(shù)據(jù)得到星球運(yùn)動的軌跡,就是信息;通過信息總結(jié)出開普勒三定律,就是知識。
相關(guān)性是使用數(shù)據(jù)的鑰匙。很多時候,我們無法直接獲取信息,但是我們可以將相關(guān)聯(lián)的信息量化,然后通過數(shù)學(xué)模型,間接地得到所要的信息。(Google利用各地用戶搜索和流感有關(guān)的關(guān)鍵詞的趨勢變化,預(yù)測疫情的傳播情況)
數(shù)據(jù)驅(qū)動方法:只要數(shù)據(jù)量足夠,就可以用若干個簡單的模型取代一個復(fù)雜的模型。因?yàn)樗窍扔写罅康臄?shù)據(jù),而不是預(yù)設(shè)的模型,然后用很多簡單的模型去契合數(shù)據(jù)。雖然這種數(shù)據(jù)驅(qū)動方法在數(shù)據(jù)量不足時找到的一組模型可能和真實(shí)的模型存在一定的偏差,但是在誤差允許的范圍內(nèi),單從結(jié)果上看和精確的模型是等效的。它是大數(shù)據(jù)的基礎(chǔ),也是智能革命的核心,更重要的是,它帶來一種新的思維方式。
在今天的IT領(lǐng)域,越來越多的問題可以采用數(shù)據(jù)驅(qū)動方法來解決。具體講,就是當(dāng)我們對一個問題暫時不能用簡單而準(zhǔn)確的方法解決時,我們可以根據(jù)以往的歷史數(shù)據(jù),構(gòu)造很多近似的模型來逼真真實(shí)情況,這實(shí)際上是用計(jì)算量和數(shù)據(jù)量來換取研究時間。它的最大優(yōu)勢在于,可以在最大程度上得益于計(jì)算機(jī)技術(shù)的進(jìn)步。
第二章 ? ?大數(shù)據(jù)和機(jī)器智能
圖靈測試:讓一臺機(jī)器和一個人坐在幕后,讓一個裁判同時與幕后的人和機(jī)器進(jìn)行交流,如果這個裁判無法判斷自己交流的對象是人還是機(jī)器,就說明這臺機(jī)器和人有了同等的智能。
人工智能這個名詞嚴(yán)格地講在今天有兩個定義,第一個是泛指機(jī)器智能,也就是任何可以讓計(jì)算機(jī)通過圖靈測試的方法,包括數(shù)據(jù)驅(qū)動方法;第二個是狹義上的概念,即20世紀(jì)五六十年代特定的研究機(jī)器智能的方法(首先了解人類如何產(chǎn)生智能,然后讓計(jì)算機(jī)按照人的思路去做)。
全世界各個領(lǐng)域數(shù)據(jù)不斷向外擴(kuò)展,漸漸形成了另外一個特點(diǎn),那就是很多數(shù)據(jù)開始出現(xiàn)交叉,各個緯度的數(shù)據(jù)從點(diǎn)和線漸漸連成了網(wǎng),或者說,數(shù)據(jù)之間的關(guān)鍵性增強(qiáng),在這樣的背景下,就出現(xiàn)了大數(shù)據(jù)。
大數(shù)據(jù)的特征:體量大、多維度、全面性。
big data是一種抽象意義上相對于小的大,它傳遞了一種信息——大數(shù)據(jù)是一種思維方式的轉(zhuǎn)變。
第三章 ? ?思維的革命
托勒密方法論的核心思想:首先,需要一個簡單的元模型,這個模型可能是假設(shè)出來的,然后用這個元模型構(gòu)建復(fù)雜的模型;其次,整個模型要和歷史數(shù)據(jù)相吻合。(動態(tài)規(guī)劃管理學(xué)的理論方法和托勒密方法論一致)缺陷:一是整體模型很復(fù)雜;二是確定性假設(shè),模型一旦產(chǎn)生,就是確定的和不會改變的。
笛卡爾的科學(xué)方法論:大膽假設(shè),小心求證。
牛頓的機(jī)械思維:一是世界變化的規(guī)律是確定的;二是因?yàn)橛写_定性做保障,因此規(guī)律不僅是可以被認(rèn)識的,而且可以用簡單的公式或者語言描述清楚;三是這些規(guī)律應(yīng)該是放之四海而皆準(zhǔn)的,可以應(yīng)用到各種未知的領(lǐng)域指導(dǎo)實(shí)踐。(工業(yè)革命就是機(jī)械思維的結(jié)果)
世界的不確定性來自兩個方面:一是當(dāng)我們對這個世界的方方面面了解的越來越細(xì)致后,會發(fā)現(xiàn)影響世界的變量其實(shí)非常多,已經(jīng)無法通過簡單的辦法或者公式算出結(jié)果,因此我們寧愿采用一些針對隨機(jī)事件的方法來處理他們,人為的把他們歸位不確定的一類。二是不確定性的第二個因素來自客觀世界本身,它是宇宙的一個特性。
信息量與不確定性有關(guān):假如我們要搞清楚一件非常不確定的事,或是我們一無所知的事情,就需要了解大量的信息。相反,如果我們對某件事已經(jīng)有了較多的了解,那么就不需要太多的信息就能把他搞清楚。所以從這個角度看,可以認(rèn)為,信息量的度量就等于不確定性的多少,這樣香農(nóng)就把熵和信息聯(lián)系起來了。
用不確定性這種眼光看待世界,再用信息消除不確定性,不僅能夠賺錢,而且能把很多智能性的問題轉(zhuǎn)化成信息處理問題,具體說,就是利用信息消除不確定性的問題。
香農(nóng)第一定律,也叫香農(nóng)信息編碼定律,它大致的含義是這樣的:假定有一個信息源,里面有N種信息,現(xiàn)在我們需要對這N種信息一一進(jìn)行編碼,比如我們用0011表示第一種信息,10000111表示第二種……這些編碼當(dāng)然不能重復(fù),否則我們就無法根據(jù)編碼來斷定是哪一種信息了。
香農(nóng)第二定律:信息的傳播速率不能超過信道的容量。
現(xiàn)代通信手段的本質(zhì),就是以相對低廉的成本獲得人脈,而媒體行業(yè)的不斷進(jìn)步,本質(zhì)上是不斷地在為企業(yè)拓寬對外連接的寬帶,使得它們做生意越來越方便。
最大熵原理:當(dāng)我們要對未知的事件尋找一個概率模型時,這個模型應(yīng)當(dāng)滿足我們所有已經(jīng)看到的數(shù)據(jù),但是對未知的情況不要做任何主觀假設(shè)。
大數(shù)據(jù)的本質(zhì):一是數(shù)據(jù)量的問題;二是多維度很重要,有兩個視角:互信息、交叉驗(yàn)證;三是信息的完備性很重要。(黑天鵝效應(yīng))
大數(shù)據(jù)時代的思維方法——從大量數(shù)據(jù)中直接找到答案,即使不知道原因。這一方面給了我們一個找捷徑的方法,同時我們不會因?yàn)槿狈τ職舛浑y倒;另一方面我們是否能接受這種不知道原因的答案。
第四章 ? ?大數(shù)據(jù)與商業(yè)
大數(shù)據(jù)在商業(yè)活動中從細(xì)節(jié)到整體再從整體到細(xì)節(jié)的雙向流動,使得我們不僅能夠利用大數(shù)據(jù)對商業(yè)進(jìn)行整體提升,更能夠精確到每一個細(xì)節(jié)。(Prada的RFID芯片、金風(fēng)公司)
一項(xiàng)技術(shù)帶動整個社會變革的事情,通常遵循一個模式
? ? ? ? ? ? ? ? ? ? 新技術(shù)+原有產(chǎn)業(yè)=新產(chǎn)業(yè)
(新技術(shù):蒸汽機(jī)、電、摩爾定律、大數(shù)據(jù)、機(jī)器智能)
在大數(shù)據(jù)時代,IT軟件和服務(wù)業(yè)依然會是IT領(lǐng)域最好的行業(yè),而且這個趨勢更加明顯。提供服務(wù)雖然不像銷售產(chǎn)品一次能掙到比較多的錢,但是細(xì)水長流的技術(shù)服務(wù)最終會給這些服務(wù)的提供者帶來更長久的生意、更多的利潤。未來產(chǎn)品的服務(wù)水平不完全取決于廠商對它的重視程度(如服務(wù)態(tài)度)和相關(guān)技術(shù),而更多依靠智能化。未來,商家將在數(shù)據(jù)層面和智能化方面展開競爭。
在今天的大數(shù)據(jù)和機(jī)器智能時代,雖然每一個公司都得益于數(shù)據(jù)的使用以及機(jī)器智能帶來的好處,但這并不意味著每家公司都要聘請數(shù)據(jù)科學(xué)家或者機(jī)器智能方面的專家。更切合實(shí)際的是,他們付費(fèi)使用第三方的服務(wù)。在未來我們可以看到,大數(shù)據(jù)和機(jī)器智能的工具就如同水和電這樣的資源,由專門的公司提供給全社會使用。
第五章 ? ?大數(shù)據(jù)和智能革命的技術(shù)挑戰(zhàn)
數(shù)據(jù)形成的四個技術(shù)條件:1.數(shù)據(jù)的三個來源:電腦本身,傳感器,過去已經(jīng)存在、非數(shù)字化形式存儲的信息數(shù)字化。2.信息的存儲:一是存儲容量增加,同時價格下降;二是存儲設(shè)備的讀寫速度提高。3.傳輸速度更快。4.信息的處理技術(shù)成熟:并行計(jì)算。
大數(shù)據(jù)時代,在收集數(shù)據(jù)時常常沒有預(yù)先設(shè)定的目標(biāo),而是先把所有能夠收集的數(shù)據(jù)收集起來,經(jīng)過分析后,能夠得到什么結(jié)論就是什么結(jié)論。這樣就避免了采樣之苦,因?yàn)榇髷?shù)據(jù)常常以全集作為樣本集。
節(jié)約存儲設(shè)備的技術(shù)體現(xiàn)在兩方面,一是存儲同樣的信息占用的空間??;二是涉及數(shù)據(jù)的安全,具體是指數(shù)據(jù)不丟失、不損壞。
大數(shù)據(jù)并行計(jì)算的難題:一是任何一個問題總有一部分計(jì)算是無法并行的,這類計(jì)算占比越大,并行處理的效率越低;另一個影響并行計(jì)算效率的因素在于無法保證每個小任務(wù)的計(jì)算量是相同的。
解決大數(shù)據(jù)實(shí)時處理的問題,就要從根本上改變系統(tǒng)的設(shè)計(jì)和算法。
機(jī)器智能的關(guān)鍵——數(shù)據(jù)挖掘。一是對數(shù)據(jù)過濾和整理;二是進(jìn)行機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)是一個不斷迭代、不斷進(jìn)步的過程,即“期望值最大化”——只要事先設(shè)定一個學(xué)習(xí)的目標(biāo),這些算法就會不斷地優(yōu)化模型,讓它越來越接近現(xiàn)實(shí)情況。
數(shù)據(jù)安全技術(shù)面臨問題:一是保證用戶數(shù)據(jù)不損壞、不丟失;二是保證數(shù)據(jù)不會被偷走或者盜用。解決的方法:一是從文件設(shè)計(jì)和操作系統(tǒng)設(shè)計(jì)上加以改進(jìn);二是利用大數(shù)據(jù)本身的特點(diǎn),來保護(hù)大數(shù)據(jù)的信息安全(如固定數(shù)據(jù)操作流程)。
大數(shù)據(jù)時代保護(hù)隱私的技術(shù):一是從收集信息的一開始就對數(shù)據(jù)進(jìn)行一些預(yù)處理,預(yù)處理后的數(shù)據(jù)保留了原來的特性,使得數(shù)據(jù)專家能夠處理數(shù)據(jù),但卻讀不懂?dāng)?shù)據(jù)的內(nèi)容;二是雙向監(jiān)視,讓侵犯隱私的人必須以自己的隱私來做交換。
第六章 ? ?未來智能化產(chǎn)業(yè)
未來的農(nóng)業(yè):在引入機(jī)器智能后,農(nóng)業(yè)將以嶄新的形態(tài)出現(xiàn)(以色列利用高科技改善農(nóng)業(yè)灌溉)。
未來的體育:利用大數(shù)據(jù)指導(dǎo)訓(xùn)練,分析和總結(jié)優(yōu)秀運(yùn)動員的動作與技術(shù),糾正其他運(yùn)動員的動作(NBA金州勇士隊(duì)利用大數(shù)據(jù)建隊(duì))。
未來的制造業(yè):機(jī)器智能滲透到產(chǎn)品制造和銷售的各個環(huán)節(jié)時,整個制造業(yè)將重新洗牌,未來的競爭要靠從設(shè)計(jì)到銷售全過程的智能化水平。
未來的醫(yī)療:降低醫(yī)療成本、解決醫(yī)療資源短缺、制造業(yè)革命、預(yù)防衰老及延長壽命
未來的律師業(yè):自然語言處理軟件處理法律文件,提高律師工作效率,降低訴訟成本。
未來的記者和編輯:計(jì)算機(jī)能提高新聞行業(yè)的效率,同時會讓記者和編輯的工作種類萎縮。
第七章 ? ?智能革命和未來社會
智能社會體現(xiàn)在方方面面,但概括起來,就是讓我們的生活變得更加方便,同時社會資源的利用率極大提高。要做到這一點(diǎn),重要的是讓整個社會精細(xì)化。
精細(xì)化社會:利用區(qū)塊鏈追蹤每一次交易(比特幣、追蹤商品從生產(chǎn)到銷售、流通的每一個環(huán)節(jié)),從標(biāo)準(zhǔn)化到個性化的服務(wù)(用藥)
大數(shù)據(jù)、移動互聯(lián)網(wǎng)(萬物聯(lián)網(wǎng)技術(shù))和機(jī)器智能三者疊加到一起后,我們不再有隱私可言;同時大數(shù)據(jù)會帶來一個威脅,它在無形中會制造出一個老大哥。