近幾年來有一個熱點技術開始平凡出現(xiàn)在我們的視野中,從新聞聯(lián)播到股票短期題材,從行業(yè)發(fā)展轉型到創(chuàng)業(yè)公司蓬勃發(fā)展。早些年這個技術較早現(xiàn)身還是出現(xiàn)在1996年深藍對戰(zhàn)西洋棋世界冠軍卡斯帕羅夫,最近一次沸沸揚揚的更是AlphaGo戰(zhàn)勝圍棋世界冠軍、職業(yè)九段選手李世石?;蛟S你以為我要說的是人工智能,不過抱歉,人工智能只是這項熱點技術的眾多下游技術之一。而這項技術就是大數(shù)據(jù)。
很多人對大數(shù)據(jù)的定義可能停留在,數(shù)據(jù)量大的基礎上,對背景和邏輯仍然有諸多尚未了解的地方。
那么到底什么是大數(shù)據(jù)?
大數(shù)據(jù)與現(xiàn)有的數(shù)據(jù)有什么區(qū)別?
大數(shù)據(jù)對于我們的生活有什么影響?
我們又將如何使用大數(shù)據(jù)?
通過閱讀著名自然語言處理和搜索專家、硅谷風險投資人吳軍博士著作《智能時代》,它將為你解答上述問題。

1/6:數(shù)據(jù)的前世今生
數(shù)據(jù)是把世界化作確定性的主要方法之一。從古代開始,人類用各種計量方式收集河流、天文、氣象、地理等自然的數(shù)據(jù)總結規(guī)律,形成了諸多歷法用于幫助人類進行耕作和文明的發(fā)展。甚至電影電視劇中都有警察蹲點將犯罪分子作息時間形成規(guī)律。
在現(xiàn)代人的普遍認知中,數(shù)據(jù)和信息似乎是一回事。讀完《智能時代》后,我個人認為:數(shù)據(jù)中含有信息,同時信息中含有數(shù)據(jù)(數(shù)字度量)。第一個數(shù)據(jù)指事物所表達的形式以數(shù)據(jù)的形式存在,而信息中的數(shù)據(jù)更多是信息的一種組成部分,如一個人的身高體重一樣。而我們說所的大數(shù)據(jù)就是指的是以數(shù)據(jù)形式存在的客觀世界的表達形式。
在學校的學習的時候,像數(shù)理化這些理科基礎學科往往需要學習大量的公式。在老師教導的時候也會經(jīng)常用一些簡單的公事推導出復雜的公式,但是卻很少教我們如何創(chuàng)造一個公式。比如牛頓的F=ma公式,能夠推導出很多其他的力學方程,但是F=ma這個簡單到極致的公司又是如何而來的呢?他又是如何成立的呢?
這里不得不說我們常用的數(shù)據(jù)處理模式:

我們將收集到的數(shù)據(jù),分析后建立模型,通過模型輸入?yún)?shù)后,得出結果即預測。而在學校里面老師只教我們公式(模型)如何輸入?yún)?shù)做預測,對模型的建立過程未做太多的教學。但是卻不妨礙我們使用它。
這套數(shù)據(jù)處理的模式到建模階段演繹出了兩種建模思路,當然這兩種思路都建立在需要收集具有代表性數(shù)據(jù)樣本的基礎上。其中一種是以具備高性能計算機的美國,使用多個簡單模型構建復雜模型,進行快速演算。另一種是以具備大量優(yōu)秀數(shù)學家的蘇聯(lián),建立復雜且準確性高的復雜模型。兩種建模各有千秋。但是歷史結果說明,美國略勝一籌。
在閱讀的過程中,我個人猜想,美國人建立模型的那一套,有些類似模塊化,以簡單的構建復雜,而簡單的自成體系,能夠隨時更換。結合書中提到的數(shù)據(jù)的相關性。

簡單模型使用的是與復雜模型具有相關性的數(shù)據(jù),同樣能夠得出復雜模型所最后的情況。
2/6:人工智能和大數(shù)據(jù)
說起人工智能,我們會想起英國數(shù)學家、邏輯學家,被稱為計算機科學之父、人工智能之父的艾倫·麥席森·圖靈。他提出了著名的圖靈測試,來判斷一臺計算機或設備是否具有人工智能。

同一個問題,機器和人同時回答,而人無法分別回答是人還是機器,則可判定機器具備人工智能。
目前廣泛應用的自動化、信息化設備其實只能算人工智能1.0,他們只是將人類的行為做機械的模仿而已。
而更高級的人工智能應當包含如下功能:
①語音識別;②機器翻譯;③文本生成或自動寫作;④與人類下棋;⑤自動回答人類問題。
為什么是這五個功能?
在讀到此處時,我覺得應該從認知角度來回答并解釋這個問題。
? ? ? ? ①語音識別:即一段信息輸入,機器解碼后,機器能夠識別我們所要表達的意思,如蘋果的SIRI以及大家都說普通話,能夠明白說的這段話字面上意思。
? ? ? ?②機器翻譯:首先要明晰,機器翻譯給誰看?當然翻譯給人看。那么這里必然涉及到人對文字的理解。即機器翻譯一段文字給人看,同時人要能看的懂,而且意思還不能有較大偏差。就像一些場合同聲傳譯,將外文先聽懂,再翻譯成中文表達,而聽翻譯的人要能明白這段中文表的意思。
這里,我個人將其分為人工智能2.0。
? ? ? ? ③文本生成或者自動寫作:機器翻譯頂多是同樣的信息以不同的方式表達出來,追求的是信息的不失真而已,這個過程一就是一、二就是二沒有其他的增減。人的寫作不論是寫什么首先要定個方向,其過程是調動大腦內相關知識進行組合后,以文字的形式輸出,同時還要考慮輸出文字能夠被他人讀懂。人工智能同樣要具備上述過程,當然首要條件是選個題目,搜索相關知識進行組合成二進制代碼,再以各國語言形式輸出,最后也要考慮人能否讀懂,否則就是亂碼。這里人工智能具備了自動形成指定認知的功能。
? ? ? ? ④與人類下棋:人與人下棋的過程是什么樣的?你飛馬,我要想為什么你會飛馬,接下來你想走哪一步,我要對應走哪一步更好。在人工智能上同樣也是,它需要明白你這一步行為倒是是為什么?并給出相應對策。此時的人工智能能夠對人的行為做出針對性的反應,但也只是停留在人做什么他做什么上。
? ? ? ? ⑤自動回答人類問題:文本生產(chǎn)和自動寫作的不同,自動回答問題要考慮的并不僅僅是人類能否聽懂看懂一段文字。如果說自動寫作是圍繞一個主題形成一個信息集合,那么自動回答問題是能夠理解人類語言基礎上對其含有的深層意思進行信息集合。對于人來說回答問題是自己的認知輸出,同樣對于人工智能來收說也是如此。它得出來的結果與人所想要表的的意思能夠契合甚至完全相反,已經(jīng)不是單純的針對關系。如果說問題分為what、where、when、which、who、why、how七種,那么前五種都只是對客觀現(xiàn)象的表述,而最后的why和how就是主觀上的判斷,因為每個人的回答都是不一樣的。
到此,我個人將其分為人工智能3.0。
得益于最近二十年來科學技術的突飛猛進,智能設備在硬件和軟件都有就極大的突破。同時在開發(fā)人工智能的時候,人們轉變的了思路,將問題變?yōu)榻y(tǒng)計和數(shù)據(jù)的問題。
以AlphaGo下圍棋來說,google公司將幾百萬上千萬的棋譜以及復盤過程輸入了AlphaGo的數(shù)據(jù)庫里面,因此在李世石下每一步棋的時候,AlphaGo能夠迅速對此得出李世石下這一步棋或者說這個落點得出數(shù)百種甚至是更多落子方式,并且附帶每種落子的獲勝概率,并選擇獲勝最高概率的落子。而李世石并不能這樣做,因此最后的行棋就變成AlphaGo不斷選擇獲勝高概率的累積,對應李世石則無法每次選擇獲勝概率最高的落子,最后結果可想而知。
所謂的統(tǒng)計和數(shù)據(jù),就是與人類最笨拙的窮舉法一樣,把所有可能的結果和出現(xiàn)的因素全部考慮進去有多少考慮多少。對此每一個行為動作都在意料之中,處理起來也是意料之中。
這同時也表明了大數(shù)據(jù)三大特性之一,數(shù)據(jù)量要大。
那么大數(shù)據(jù)三大特性之一多維度,則說明的是數(shù)據(jù)來源、表現(xiàn)涉及面的多維度。如同人在跑步,這個時候對應他跑步時候的數(shù)據(jù),不僅是速度,同時可能還有,體溫、血壓、血糖、脈搏等一系列體征數(shù)據(jù)。也就是說大數(shù)據(jù)采集的數(shù)據(jù)大是由于數(shù)據(jù)多維度造成的各種數(shù)據(jù)都要收集而形成的一個龐大的數(shù)據(jù)群,這樣的數(shù)據(jù)群才能真實的反應行為。
而大數(shù)據(jù)三大特性之一的及時性,不是很重要但是也不可或缺,在某些特殊行業(yè)大數(shù)據(jù)的及時性則非常重要,如實時路況監(jiān)測、天氣預報等等。
未完待續(xù)······
接下來,我將繼續(xù)為您精讀《智能時代》。
在《精讀丨讀完這本書,你將成為控制未來2%(二)》中將解讀思維革命、大數(shù)據(jù)對產(chǎn)業(yè)的影響以及大數(shù)據(jù)對我們個人生活的影響。
敬請期待!!
END
文/四季道
如果覺得今天的文字希望能夠對你有用,就親關注我或擊下方愛心,如果可以請轉發(fā)讓更多的朋友能夠看到。
你的回復、喜歡、轉發(fā)是我堅持、進步的源泉。