大數(shù)據(jù),英文翻譯為Big Data,聽(tīng)上去科技感十足的一個(gè)詞,到底跟我們的生活有什么關(guān)系呢?我們不妨先從一個(gè)故事開(kāi)始認(rèn)識(shí)一下它。
在信息化領(lǐng)域,國(guó)外很多企業(yè)走在時(shí)代前列。美國(guó)一家零售連鎖商塔吉特,很多年前就開(kāi)始利用銷售過(guò)程匯總的數(shù)據(jù)進(jìn)行分析。有一段時(shí)間,塔吉特公司通過(guò)他們所有門(mén)店里女性的消費(fèi)記錄數(shù)據(jù),進(jìn)行“懷孕預(yù)測(cè)”。對(duì)于零售商來(lái)說(shuō),發(fā)現(xiàn)一個(gè)顧客是否懷孕非常重要。因?yàn)橐坏┯辛诵『?,就意味著一個(gè)家庭的消費(fèi)觀念會(huì)發(fā)生很大變化,如果能預(yù)測(cè)消費(fèi)者的懷孕趨勢(shì)就能及時(shí)向她們推送孕期每個(gè)階段對(duì)應(yīng)的優(yōu)惠券,從而刺激消費(fèi)。值得注意的是,有一天,一個(gè)中年男人怒氣沖沖的來(lái)到塔吉特的一家零售店,他向商店經(jīng)理投訴:“我女兒還是高中生,你們卻給她郵寄嬰兒服和嬰兒床的優(yōu)惠券,你們這樣的行為是在鼓勵(lì)她懷孕嗎?”。塔吉特商店的經(jīng)理幾天后打電話向這個(gè)男人道歉,這個(gè)男人卻感到非常抱歉,他跟塔吉特的經(jīng)理道歉說(shuō):“我跟女兒談過(guò)了,她的預(yù)產(chǎn)期是8月份,是我自己沒(méi)有意識(shí)到這件事情?!?/p>
這就是一個(gè)典型的大數(shù)據(jù)案例,大數(shù)據(jù)如此神奇,它可能比你的父母更了解你的小秘密。你喜歡什么款式的衣服,你最愛(ài)哪家甜品店,你最喜歡的明星是誰(shuí)……大數(shù)據(jù)就像你的影子,對(duì)你了如指掌。

提起大數(shù)據(jù),人們最先想到的一本書(shū)往往是《大數(shù)據(jù)時(shí)代》。
《大數(shù)據(jù)時(shí)代》的作者維克托?邁爾?舍恩伯格被譽(yù)為“大數(shù)據(jù)商業(yè)應(yīng)用第一人”,十幾年前就已經(jīng)洞察到大數(shù)據(jù)的趨勢(shì),一直潛心研究大數(shù)據(jù)技術(shù),不僅在哈佛大學(xué)、牛津大學(xué)等著名學(xué)府任教,也為微軟、IBM等知名企業(yè)提供咨詢服務(wù),同時(shí)還是眾多政府高層的智囊團(tuán)。維克托將自身對(duì)大數(shù)據(jù)技術(shù)的研究與商業(yè)實(shí)踐、政府決策相結(jié)合,進(jìn)一步獲得對(duì)大數(shù)據(jù)的全球視野。
《大數(shù)據(jù)時(shí)代》并不是一本艱澀難懂的技術(shù)書(shū),而是一本通俗易懂的案例書(shū),如果你想要了解我們身處的這個(gè)世界、這個(gè)時(shí)代,如果你想要對(duì)個(gè)人職業(yè)生涯選擇和家庭財(cái)務(wù)決策有更宏觀的認(rèn)識(shí),那么你需要讀一讀這本《大數(shù)據(jù)時(shí)代》。
我們身處一個(gè)數(shù)據(jù)大爆炸的時(shí)代,世界的數(shù)據(jù)以一種超乎想象的速度裂變。哲學(xué)上講:量變引起質(zhì)變。當(dāng)數(shù)據(jù)累積到一定程度,必然引起質(zhì)變。數(shù)據(jù)的價(jià)值也就由此誕生。維克托在《大數(shù)據(jù)時(shí)代》中強(qiáng)調(diào)了大數(shù)據(jù)給我們帶來(lái)的三個(gè)轉(zhuǎn)變:
更多:不是隨機(jī)樣本,而是全體數(shù)據(jù)
更雜,不是精確性,而是混雜性
更好,不是因果關(guān)系,而是相關(guān)關(guān)系
01 大數(shù)據(jù)時(shí)代,樣本=總體
大數(shù)據(jù)的出現(xiàn)對(duì)社會(huì)科學(xué)提出了挑戰(zhàn),社會(huì)科學(xué)是非常依賴樣本分析、研究和調(diào)查問(wèn)卷的學(xué)科,而大數(shù)據(jù)時(shí)代,數(shù)據(jù)成為最容易獲得的信息,我們不再受困于數(shù)據(jù)量的多少,開(kāi)始利用所有的數(shù)據(jù)。
有數(shù)據(jù)證明,采用樣本分析法的正確率可達(dá)97%??瓷先?%的錯(cuò)誤率似乎可以接受,但也要就事論事?,F(xiàn)在大數(shù)據(jù)的核心在于預(yù)測(cè),為了更精準(zhǔn)的預(yù)測(cè),自然是越少錯(cuò)誤率越高,而當(dāng)數(shù)據(jù)量足夠大時(shí),當(dāng)樣本=總體時(shí),數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性就能大大提高。
這有點(diǎn)像我們聽(tīng)一首歌,如果把一首歌切割成一些長(zhǎng)短不一的片段,很有可能你能猜出這是什么歌,也有可能你猜不出來(lái);但如果給你聽(tīng)一首完整的歌,那你一定就能知道這首歌是什么。
大數(shù)據(jù)以前的時(shí)代是,用盡可能少的數(shù)據(jù)獲得盡可能多的信息,當(dāng)人類進(jìn)入到大數(shù)據(jù)時(shí)代時(shí),是用盡可能多的數(shù)據(jù)獲得信息。
每次出去旅游,想搶到便宜的機(jī)票簡(jiǎn)直是一場(chǎng)大戰(zhàn)。打開(kāi)購(gòu)票網(wǎng)站,今天刷一下貴了100,明天刷一下便宜了200,后天再刷又貴了200,每次我都想怎么才能知道機(jī)票什么時(shí)候最便宜。原來(lái),這個(gè)功能已經(jīng)有公司實(shí)現(xiàn)了。有一家預(yù)測(cè)機(jī)票價(jià)格的公司叫Farecast,F(xiàn)arecast的預(yù)需要海量數(shù)據(jù)的支持,為了提高預(yù)測(cè)的準(zhǔn)確度,F(xiàn)arecast收集了么過(guò)商業(yè)航空產(chǎn)業(yè)中每一條航線上每一架飛機(jī)內(nèi)每一個(gè)座位,在一年內(nèi)的綜合票價(jià)記錄。如今,F(xiàn)arecast已經(jīng)有大約2000億條的飛行數(shù)據(jù),最終實(shí)現(xiàn)票價(jià)預(yù)測(cè)的準(zhǔn)確度高達(dá)75%。如果沒(méi)有海量數(shù)據(jù)的支持,所謂的票價(jià)預(yù)測(cè)基本約等于0。
Farecast的創(chuàng)始人埃齊奧尼說(shuō):“這只是一個(gè)暫時(shí)性的數(shù)據(jù),隨著你收集的數(shù)據(jù)越來(lái)越多,你的預(yù)測(cè)結(jié)果會(huì)越來(lái)越準(zhǔn)確?!?/p>
02 大數(shù)據(jù)時(shí)代,允許不精確和錯(cuò)誤
海量數(shù)據(jù)的出現(xiàn),也意味著大量混雜的、不精確的、甚至錯(cuò)誤的數(shù)據(jù)出現(xiàn)。大數(shù)據(jù)時(shí)代95%的數(shù)據(jù)都是混亂的,如果還堅(jiān)持傳統(tǒng)“小數(shù)據(jù)”的精確算法,那將徹底錯(cuò)過(guò)大數(shù)據(jù)的價(jià)值。

為什么“小數(shù)據(jù)”要精確?
因?yàn)椤靶?shù)據(jù)時(shí)代”或者像上文提到的“樣本分析法”中,能收集到的信息量有限,所以必須保證數(shù)據(jù)盡量精確,才能提高預(yù)測(cè)的準(zhǔn)確度。這是一個(gè)概率學(xué)問(wèn)題,簡(jiǎn)單來(lái)說(shuō),給你三個(gè)蘋(píng)果,只有一個(gè)是好的,那你挑到好蘋(píng)果的概率是1/3,如果有100個(gè)蘋(píng)果,即使有一半都是壞的,挑到好蘋(píng)果的概率也有1/2。
胡適曾經(jīng)諷刺過(guò)“差不多先生”,因?yàn)椴畈欢嘞壬目陬^禪就是:凡事只要差不多就好了,何必太較真呢?“大數(shù)據(jù)”從某種角度來(lái)說(shuō)也是一位“差不多先生”,要讓我們習(xí)慣他可能還需要時(shí)間。
03 大數(shù)據(jù)時(shí)代,“是什么”比“為什么”重要
小朋友很小的時(shí)候就要讀《十萬(wàn)個(gè)為什么》,培養(yǎng)對(duì)世界的好奇心,學(xué)習(xí)的過(guò)程就是搞清楚每一個(gè)現(xiàn)象背后的原因,這是我們從小到大養(yǎng)成的慣性思維。
大數(shù)據(jù)時(shí)代,這種思維需要變一變了。數(shù)據(jù)量的劇增,使得事物與事物之間的聯(lián)系越來(lái)越復(fù)雜,通過(guò)復(fù)雜的相關(guān)關(guān)系,大數(shù)據(jù)猶如神探破案,找出蛛絲馬跡?,F(xiàn)在,只需要知道“是什么”就夠了,沒(méi)必要知道“為什么”。
建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測(cè)是大數(shù)據(jù)的核心。據(jù)統(tǒng)計(jì),亞馬遜成交量的三分之一都是來(lái)自于相關(guān)推薦的購(gòu)買(mǎi)。當(dāng)我在亞馬遜上購(gòu)買(mǎi)這本《大數(shù)據(jù)時(shí)代》時(shí),系統(tǒng)還會(huì)同時(shí)給我推薦另外幾本相關(guān)的書(shū),比如吳軍的《智能時(shí)代》,涂子沛的《大數(shù)據(jù)》等,這些書(shū)正好幫我構(gòu)成了一個(gè)“大數(shù)據(jù)”的主題閱讀書(shū)單,這樣我就很可能把這一系列書(shū)全部加入購(gòu)物車(chē)。

隨著技術(shù)的發(fā)展,收集和分析數(shù)據(jù)的成本越來(lái)越低,人們更熱衷于收集海量的數(shù)據(jù),來(lái)預(yù)測(cè)分析可能出現(xiàn)的問(wèn)題。比如,大數(shù)據(jù)可以用來(lái)預(yù)測(cè)汽車(chē)故障,這種功能很適合物流、快遞行業(yè)。大型的物流快遞公司會(huì)有數(shù)量眾多的運(yùn)輸車(chē)隊(duì),一旦車(chē)在運(yùn)輸過(guò)程中出現(xiàn)故障,造成的延誤、再裝載損失都很?chē)?yán)重。通過(guò)傳感器檢測(cè)汽車(chē)各種零件的使用情況,能及時(shí)預(yù)測(cè)哪些零件可能在什么時(shí)候出現(xiàn)故障,以便提前進(jìn)行檢查維修,這樣就能大大減少成本損失。這種預(yù)測(cè)并不能告訴你,“為什么”會(huì)出現(xiàn)故障,而對(duì)于快遞公司來(lái)說(shuō),也只需要只知道“是什么”將出現(xiàn)故障就足夠了。
數(shù)據(jù)的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而絕大部分則隱藏在表面之下。
大數(shù)據(jù)時(shí)代,我們的生活將發(fā)生翻天覆地的變化,就像望遠(yuǎn)鏡能讓我們感受浩瀚的宇宙星空,顯微鏡能讓我們觀察最小顆粒的微生物。大數(shù)據(jù)是一種收集和分析海量數(shù)據(jù)的新技術(shù),能幫助我們更好地認(rèn)識(shí)世界、理解世界。大數(shù)據(jù)不是冰冷的事實(shí),它其實(shí)分散在日常生活的各個(gè)角落,從思維模式上先給我們帶來(lái)一場(chǎng)變革,然后當(dāng)我們用大數(shù)據(jù)的思維看世界時(shí),才發(fā)現(xiàn)“凡是過(guò)去,皆為序曲”。
未來(lái)已來(lái),大數(shù)據(jù)時(shí)代裹挾著未來(lái)世界的新算法,新技術(shù)像潮水一樣涌來(lái),只有勇于擁抱變化的人才能急流勇進(jìn)。大數(shù)據(jù)時(shí)代,更多的數(shù)據(jù),更多不確定性,更復(fù)雜的相關(guān)關(guān)系,提供了“更多,更快,更好”的可能。