1?數(shù)據(jù)——人類建造文明的基石
如果把資本和機械動能作為全球近現(xiàn)代化的動力,那么數(shù)據(jù)將成為下一次技術革命和社會變革的核心動力。
數(shù)據(jù)本身是客觀存在的,但是它的范疇是隨著文明的里程不斷變化和擴大的。數(shù)據(jù)最大的作用在于承載信息。相關性是使用數(shù)據(jù)的鑰匙。
信息是關于世界、人和事的描述,它比數(shù)據(jù)來得抽象。
人類認識自然的過程,科學實踐的過程,以及在經濟、社會領域的行為,總是伴隨著數(shù)據(jù)的使用。進入信息時代后,數(shù)據(jù)驅動的方式開始被普遍采用。
2?大數(shù)據(jù)和機器智能
驗證機器是否智能:圖靈測試。
鳥飛派:首先了解人類是如何產生智能的,然后讓計算機按照人的思路去做。
數(shù)據(jù)驅動和超級計算:尋找數(shù)學模型,用統(tǒng)計的方法訓練出模型的參數(shù)(機器學習),隨著數(shù)據(jù)量的積累,系統(tǒng)會變得越來越好。
大數(shù)據(jù)特征:大量、多維度和完備性。
大數(shù)據(jù)時代的核心是變智能問題為數(shù)據(jù)問題,開啟智能革命時代。
3?思維的革命
在無法確定因果關系時,數(shù)據(jù)為我們提供了解決問題的新方法,數(shù)據(jù)中所包含的信息可以幫助我們消除不確定性,而數(shù)據(jù)間的相關性在某種程度上可以取代原來的因果關系,幫助我們得到想要的答案,這就是大數(shù)據(jù)思維的核心。
機械思維:世界變化的規(guī)律是確定的;規(guī)律可以被認識且可以用簡單的公式或語言描述清楚;規(guī)律四海皆準。機械思維作為一種準則指導人們的行為,其核心思想為確定性(可預測性)和因果關系。機械思維的局限性源于否認不確定性和不可知性。
在信息時代機械思維的局限屬于越來越明顯,首先并非所有規(guī)律都可以用簡單的原理描述,其次像過去那樣找因果關系變得非常困難。
世界的不確定性來自兩方面,首先影響世界的變量非常多,其次來自客觀世界本身,我們測量活動本身影響了被測量的結果。
信息論建立在不確定性基礎上,想要消除不確定性就要引入信息。引入信息量大小,則看系統(tǒng)的不確定性大小。只有獲取的信息和系統(tǒng)有關聯(lián)才能消除不確定性,對相關性的度量,稱之為互信息。
香農第一定律:對信源發(fā)出的所有信息設計一種編碼,編碼平均長度一定大于該信源的信息熵。一定存在一種編碼方式,使得編碼的平均長度無限接近它的信息熵。
香農第二定律:信息的傳播速率不可能超過信道的容量。
最大熵原理:對未知事件尋找一個概率模型時,該模型應當滿足我們所有已看到的數(shù)據(jù),但對未知的情況不要做任何主觀假設。最大熵原理不同于“大膽假設,小心求證”的方法論,因為它要求不引入主觀的假設。
當我們了解到信息或者說數(shù)據(jù)能消除不確定性后,便能理解為什么大數(shù)據(jù)的出現(xiàn)能夠解決那些智能的問題,因為很多智能問題無非是消除不確定性的問題。
在無法確定因果關系時,數(shù)據(jù)為我們提供了解決問題的新方法,數(shù)據(jù)中所包含的信息可以幫助我們消除不確定性,而數(shù)據(jù)之間的相關性在某種程度上可以取代原來的因果關系,幫助我們得到我們想知道的答案,這便是大數(shù)據(jù)思維的核心。
4 大數(shù)據(jù)與商業(yè)
從大數(shù)據(jù)中找規(guī)律:美國警察通過智能電表圈定犯罪嫌疑人;國稅局通過大數(shù)據(jù)圈定偷漏稅企業(yè);塔吉特百貨通過大數(shù)據(jù)分析用戶行為,推薦商品;
沃爾瑪、Netflix、Google:相關性、時效性和個性化
歷史上,一項技術帶動整個社會變革,通常遵循一個模式:新技術+原有產業(yè)=新產業(yè);
蒸汽機:現(xiàn)有產業(yè)+蒸汽機=新產業(yè),如工業(yè)、運輸業(yè);
電力:現(xiàn)有產業(yè)+電=新產業(yè),如通信、化工產業(yè);
信息技術:現(xiàn)有產業(yè)+摩爾定律=新產業(yè),如互聯(lián)網(wǎng);
5 大數(shù)據(jù)和智能革命的技術挑戰(zhàn)
大數(shù)據(jù)形成的技術條件:產生、存儲、傳輸和處理;
大數(shù)據(jù)的第一個來源是電腦本身,其次是傳感器,然后是過去資料的信息數(shù)字化。在互聯(lián)網(wǎng)時代,用戶數(shù)據(jù)增長驚人。大數(shù)據(jù)常常以全集為樣本集,但如何收集到全集是很有挑戰(zhàn)性的事情。數(shù)據(jù)的收集是一個開放性的話題,不存在唯一的最佳的方法,但是好的方法一定能夠保證數(shù)據(jù)的完備性和不變性。
常見的方法是間接地收集數(shù)據(jù),然后利用數(shù)據(jù)的相關性,導出所要的信息。
信息的存儲:磁帶到磁盤到SSD。數(shù)據(jù)的增長的速度是高過存儲設備發(fā)展速度的。目前節(jié)約存儲設備的技術體現(xiàn)在兩方面,第一類技術是存儲同樣的信息占用的空間小,第二類技術涉及數(shù)據(jù)安全(指數(shù)據(jù)不丟失、不損壞)。信息存儲技術還需要研究怎樣存儲信息才能方便使用。??
傳輸技術:移動通信技術、WiFi
信息處理:云計算,實現(xiàn)大規(guī)模并行計算。大數(shù)據(jù)的使用效率取決于并行計算的水平。
6 未來智能化產業(yè)
農業(yè)、體育、制造業(yè)、醫(yī)療、制藥、記者和編輯
7?智能革命和未來社會
智能化社會:提升社會管理水平、優(yōu)化城市資源、保障城市安全
精細化社會:提高資源利用率,讓生活更便利、個性化定制服務