歐凱慣例:引子
世界上唯一不變的就是變化,大數(shù)據(jù)的定義也不例外。
90年代,懵懵懂懂的年代

早在90年代,美國(guó)的一位計(jì)算機(jī)科學(xué)家就提出了大數(shù)據(jù)的概念,但那時(shí)候只是注意到了數(shù)據(jù)的大,暫時(shí)還未發(fā)現(xiàn)數(shù)據(jù)大到一定程度之后的潛在價(jià)值。那個(gè)年代對(duì)大數(shù)據(jù)的定義是:
如果某一數(shù)據(jù)集的規(guī)模大到一定程度,導(dǎo)致當(dāng)下的數(shù)據(jù)處理工具無(wú)法有效的對(duì)其進(jìn)行標(biāo)記、存儲(chǔ)、處理,那么它就屬于大數(shù)據(jù)的范疇。
大數(shù)據(jù)從理念上講,其類型包括結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),實(shí)際中多數(shù)為非結(jié)構(gòu)化數(shù)據(jù),導(dǎo)致當(dāng)下主流的關(guān)系型數(shù)據(jù)處理方法與工具無(wú)法對(duì)其進(jìn)行有效處理。
2012世界末日的年代
2012年是挺特殊的一年,因?yàn)槲冶救耸謸?dān)心2012年的12月21號(hào)會(huì)發(fā)生什么不可預(yù)知的事情,還好全球人民順利度過(guò)了那一天。

大數(shù)據(jù)規(guī)模下限一直在提高,到了2012年,數(shù)據(jù)規(guī)模達(dá)到EB級(jí)別的數(shù)據(jù)才能從【規(guī)?!可媳环Q為是大數(shù)據(jù),這正也從側(cè)面體現(xiàn)了全球數(shù)據(jù)量增長(zhǎng)的是如此之快。關(guān)于全球數(shù)據(jù)量增長(zhǎng)的歷史,可以查看我的另一篇博文大數(shù)據(jù)系列之一
2016年人工智能的元年
2016年,明確了大數(shù)據(jù)的四大特征,如下圖所示:

所以,此時(shí)大數(shù)據(jù)的定義為:
大數(shù)據(jù)代表著一堆信息資源,它具備上圖中的四個(gè)4特殊,即要有超大規(guī)模的數(shù)據(jù)集,數(shù)據(jù)類別要繁雜多樣,數(shù)據(jù)要持續(xù)產(chǎn)生與更新,數(shù)據(jù)質(zhì)量要好,噪聲數(shù)據(jù)低,需要使用特殊技術(shù)及數(shù)據(jù)分析方法才能從中提取相關(guān)的價(jià)值。
說(shuō)到大數(shù)據(jù)的價(jià)值,這里不得不提一句,它不會(huì)告訴我們?yōu)槭裁矗粫?huì)告訴我們是什么,因?yàn)榇髷?shù)據(jù)經(jīng)常是信息交互產(chǎn)生的無(wú)成本副產(chǎn)品,換句明白的話講,大數(shù)據(jù)都是馬后炮,我們從中提取的信息價(jià)值其實(shí)就是【經(jīng)驗(yàn)】,即XXX多數(shù)情況下都是這樣做的,而不明白為什么要這樣做。
人工智能正是基于大數(shù)據(jù)的【經(jīng)驗(yàn)】來(lái)進(jìn)行機(jī)器學(xué)習(xí)的,至于人工智能是不是明白為什么要這樣做,那就是后話了,反正這樣做能大概率達(dá)成目標(biāo)就行了。
此時(shí),人們已經(jīng)重新認(rèn)識(shí)到了大數(shù)據(jù)的潛在價(jià)值,所以人們?cè)诿鎸?duì)大數(shù)據(jù)時(shí),將重心放在了價(jià)值提取上。
為什么說(shuō)2016年是人工智能的元年呢,看看2016年的AlphaGo在圍棋中的表現(xiàn)以及人工智能終端在2018年的井噴就明白了。

2018年揚(yáng)帆起航的年代
2018年剛過(guò),2018年人們對(duì)大數(shù)據(jù)的定義簡(jiǎn)單明了,即:
需要
并行計(jì)算才能處理的數(shù)據(jù)就是大數(shù)據(jù)。
多么的簡(jiǎn)單明了而又不明白,因?yàn)榇藭r(shí)人們將對(duì)大數(shù)據(jù)的定義轉(zhuǎn)嫁到了并行計(jì)算的身上,所以想要清楚2018年相對(duì)于2016年在定義上有哪些進(jìn)化,就需要理解并行計(jì)算的概念及其應(yīng)用場(chǎng)景。
大數(shù)據(jù)和商業(yè)智能

大數(shù)據(jù)和商業(yè)智能(Business Intelligence)有一些共同的目的,比如決策分析,趨勢(shì)預(yù)測(cè),那么二者之間有什么區(qū)別呢?
- BI使用可描述的歸納統(tǒng)計(jì)法,而大數(shù)據(jù)使用感知統(tǒng)計(jì)法
- BI基于信息價(jià)值很高的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,而大數(shù)據(jù)使用海量的信息價(jià)值較代的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析
- BI最終只能衡量某件事或判斷某種趨勢(shì),而大數(shù)據(jù)卻可以揭示關(guān)系、依賴、預(yù)測(cè)產(chǎn)出或行為。
歐凱慣例:小結(jié)
小結(jié)一下,大數(shù)據(jù)的定義進(jìn)化有一個(gè)明顯的分水嶺,人們?cè)谡J(rèn)識(shí)到大數(shù)據(jù)的潛在價(jià)值前是一個(gè)階段,認(rèn)識(shí)到潛在價(jià)值后是另外一個(gè)階段。
第一個(gè)階段對(duì)大數(shù)據(jù)的定義明顯是『反感』的,形象描述之就是『我真受不了你,數(shù)據(jù)怎么這么多呢,咋處理才好呢』。
第二個(gè)階段對(duì)大數(shù)據(jù)的定義明顯是『親和』的,形象描述之就是『這玩意看起來(lái)沒(méi)啥用,其實(shí)仔細(xì)分析分析老有用了,我一定得找到最高效的辦法提取我想要的信息』。

另外,也可以明確的講,是大數(shù)據(jù)的進(jìn)化將人工智能推入到一個(gè)可研實(shí)用的階段。