????要想給他人一杯水,那自己至少得有一桶水。作為一頭教獅【也算一只程序猿】,這種狩獵進(jìn)食的本領(lǐng)也要不斷提升。筆者最近一直在跟數(shù)據(jù)打交道,順便想來聊一聊大數(shù)據(jù)。
????當(dāng)然,知乎上的大神關(guān)于大數(shù)據(jù)的介紹非常生動,這里小編也是拿過來學(xué)習(xí)了下。
????什么是大數(shù)據(jù)?
????這問題看似簡單,實際不簡單,也許一千個人會有一千個答案。是的,每個人對大數(shù)據(jù)都有自己的理解,就像小編問朋友,“潮汕哪里的牛肉火鍋最好吃?”分分鐘都能收獲上百個答案。
????小編從吃貨的角度,給大家舉栗說明一下,什么是大數(shù)據(jù)?
????1、大數(shù)據(jù)是什么?怎么理解大數(shù)據(jù)?
????如果把數(shù)據(jù)比作地球上的水,個人的數(shù)據(jù)(電腦里的各種文檔、歌曲、電影、程序等等),就好像一顆小水珠,最多能在累的時候解解渴;企業(yè)級的數(shù)據(jù)略有些不同,根據(jù)規(guī)模的大小,有些可以算作水坑、有些是池塘,已經(jīng)可以養(yǎng)些小魚小蝦打打牙祭了;還有一些企業(yè)的數(shù)據(jù)(比如Facebook,2012年每天需要處理的數(shù)據(jù)量就達(dá)到了500TB)已經(jīng)算得上是一個大的湖泊了,可以實現(xiàn)大型的捕撈、規(guī)模化的養(yǎng)殖。但是,在湖泊之外,還有更廣闊的世界,也就是說還有更多的數(shù)據(jù)值得我們?nèi)グl(fā)現(xiàn)。
????比如,外國人常常埋怨中國菜不夠“精確”,很多配料都用“少許”“適當(dāng)”“足量”粗略地進(jìn)行描述,實際操作起來很難學(xué)到精髓。有了大數(shù)據(jù)以后,主材、配料的數(shù)量、比例,油鹽醬醋的多少,都可以進(jìn)行精準(zhǔn)地記錄,甚至哪里產(chǎn)的豬肉,配上哪里的青椒、豆瓣做出來的回鍋肉最好吃,都可以形成數(shù)據(jù)被記錄下來。這些以前不被重視、不被采集的數(shù)據(jù),就是我們大數(shù)據(jù)領(lǐng)域隱藏的“水滴”“池塘”“湖泊”。已有的大量數(shù)據(jù),以及尚未被發(fā)現(xiàn)、記錄的數(shù)據(jù),共同構(gòu)成了大數(shù)據(jù)時代的發(fā)展基礎(chǔ)。
????水滴、池塘、湖泊發(fā)現(xiàn)得多了,就能夠匯聚成海洋。大數(shù)據(jù)海洋里面的水(數(shù)據(jù)),多到數(shù)不清楚,里面的物產(chǎn)、資源(大數(shù)據(jù)產(chǎn)生的價值)也豐富到無以復(fù)加。原來我們在湖泊里面養(yǎng)養(yǎng)“青草鰱鳙”四大家魚,有了數(shù)據(jù)海洋,想吃生蠔、鱈魚、金槍魚等等都可以輕松搞定。
????這么說,你明白大數(shù)據(jù)了嗎?就是把超級多數(shù)據(jù)信息匯集到一起,然后在里面“釣大魚”。

????2、都說大數(shù)據(jù)有4V的特征,是什么意思?
????大數(shù)據(jù)的4V,就是“容量大Volume”、“多樣性Variety”、“價值高Value”、“速度快Velocity”,同樣以海洋和里面的美食進(jìn)行類比:
????A、容量大:地球表面有70%左右都是海洋,想想里面都有多少水滴,有多少好吃的?大數(shù)據(jù)時代,每一個人、每一種食材、甚至每一秒風(fēng)味與口感的變化關(guān)系,都能夠形成一系列隨時更新的數(shù)據(jù),數(shù)據(jù)規(guī)??涨褒嫶螅渲须[藏的價值也遠(yuǎn)遠(yuǎn)超出大部分人的預(yù)期。
????B、多樣性:海洋里面的物質(zhì)非常多樣化,有資源、也有雜物;有海膽、生蠔、象鼻蚌等小而鮮嫩的海產(chǎn),也有黃魚、鱈魚、金槍魚等大型魚類……大數(shù)據(jù)的結(jié)構(gòu)也和海洋一樣復(fù)雜,僅僅以文件類型為例,就有圖片、文字、聲音、視頻等等,還有各種非結(jié)構(gòu)化數(shù)據(jù),所以在利用這些資源之前,需要把他們“排排站”進(jìn)行分類、處理,才能“吃果果”。
????C、價值高:這個就不用說了,鰻魚、龍蝦、三文魚……動輒每100克3~4萬元的黃唇魚,還有危急時刻能救人命的秋刀魚。(前幾年就出過一個日本青年因吃到炭烤秋刀魚而放棄輕生的新聞,小智會亂說?)在實際應(yīng)用中,大數(shù)據(jù)可以用于提升優(yōu)化企業(yè)的管理效率,發(fā)現(xiàn)新的商業(yè)機會,也能夠?qū)κ挛锏陌l(fā)展做出準(zhǔn)確的分析、預(yù)測等等,各種商業(yè)價值就看你怎么用;
????D、速度快:先來吃肉、后來喝湯,這個道理想必大家都懂。數(shù)據(jù)海洋很大,想要比別人搶先一步找到美味,速度一定要快,這就要求我們要能對整個數(shù)據(jù)海洋進(jìn)行快速的掃描、篩選、處理。如果只有兩條小漁船,就算給你整個太平洋,也不見得能奔上小康。

????3、對大數(shù)據(jù)的處理,還是以在大海里面抓魚為例:
????通過技術(shù)手段,發(fā)現(xiàn)隱藏在海水中的豐富物產(chǎn)的過程,就是數(shù)據(jù)挖掘;
????(從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息)找到的東西里面,哪些是有用的,哪些是雜草、沙石先大概做一個分析,順手把錯誤的、不合適的、沒價值東西排除掉,這是數(shù)據(jù)清洗;
????(發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤)在進(jìn)行過初步篩選的“海域”里,進(jìn)一步掃描出哪些是礦產(chǎn)、哪些是漁產(chǎn),漁產(chǎn)里面有哪些魚類,分別的種類劃分、經(jīng)濟價值如何、數(shù)量多少……這是數(shù)據(jù)分析;
????(對收集來的大量數(shù)據(jù)進(jìn)行分析,提取有用信息和形成結(jié)論)把一眼看起來有些面目猙獰的海鮮(各種數(shù)字、表格)進(jìn)行加工、處理,做成精美的大餐送上餐桌,色香味俱全地呈現(xiàn)在用戶面前(精美、直觀的圖表),就是我們說的數(shù)據(jù)可視化。

????4、IaaS,PaaS,SaaS?
????IaaS是基礎(chǔ)設(shè)施服務(wù)。IaaS是所有計算基礎(chǔ)設(shè)施的利用,包括處理CPU、內(nèi)存、存儲、網(wǎng)絡(luò)和其它基本的計算資源,用戶能夠部署和運行任意軟件,包括操作系統(tǒng)和應(yīng)用程序。就好像給你一個碼頭,配備好了各種硬件設(shè)備。機會和能力給了你,還需要靠自己的平臺、工具,到海洋里面獲取資源。
????PaaS是平臺服務(wù)。提供給消費者的服務(wù)是把客戶采用提供的開發(fā)語言和工具(例如Java,python,.Net等)開發(fā)的或收購的應(yīng)用程序部署到供應(yīng)商的云計算基礎(chǔ)設(shè)施上去。除了碼頭,又給了一艘船,還給你配齊船長、大副、水手,有了一個系統(tǒng)可以直接面對海洋的各種資源了。不過怎么抓魚,用什么工具抓魚,還是你自己的事情。
????SaaS是軟件服務(wù),提供給客戶的服務(wù)是運營商運行在云計算基礎(chǔ)設(shè)施上的應(yīng)用程序,用戶可以在各種設(shè)備上通過客戶端界面訪問,如瀏覽器。這次就落實到具體的工具上面來,捕撈方案、抓魚的網(wǎng)、開船路線都配齊了,只需要安排下去:去哪片海域抓什么魚就行。

????5、Hadoop和Spark,又是啥東東?
????這幾年說大數(shù)據(jù),必定說Hadoop,后來又多了個Spark,是什么意思呢?
????假如我的家族世代以打魚為生,以前都是聚集在一個島上,駕駛一艘大船出海打魚,整個家族能打到多少魚就和這艘船的航行速度(計算能力)、裝載數(shù)量(存儲能力)有關(guān)。它的速度再快、撈得再多,由于只有一艘船,能夠搜尋的海域就相當(dāng)有限。現(xiàn)在我們改變了策略,一艘船的能力不行,就找N多艘船一起。整個家族的人分散到世界海洋各地,和其他家族一起共同分享各自的船只。必要的時候,我們可以聯(lián)合幾百艘船一起出動捕撈,由于覆蓋的海域足夠廣,能夠裝載的收獲足夠多,對應(yīng)的捕撈能力也可以實現(xiàn)指數(shù)式的增長。
????hadoop就是這樣一個分布式系統(tǒng)的基礎(chǔ)構(gòu)架,通過將文件進(jìn)行分布式(切塊、分散)管理,充分利用集體的威力進(jìn)行高速運算和存儲。

????至于spark嘛,就是船上以前有艘快艇,本來是用來逃生的,如今也被利用當(dāng)成抓魚的主要工具。(Spark是一種與hadoop類似的開源計算集群環(huán)境,啟用了內(nèi)存分布數(shù)據(jù)集,直接從內(nèi)存讀數(shù)據(jù),運算速度最快能比從硬盤讀取數(shù)據(jù)提升10倍水平)。
????6、大數(shù)據(jù)用來做什么?
????大數(shù)據(jù)有很多應(yīng)用場景,比如精準(zhǔn)營銷,就是打魚的人通過多年海上經(jīng)驗,知道哪片海域的海鮮多又能賣好價錢;比如輿情分析,就像海嘯預(yù)警,通過對海量信息的分析、比對,找出可能產(chǎn)生海嘯災(zāi)害的區(qū)域……當(dāng)然,最大的用處還是“預(yù)測”,比如通過分析多年的洋流運動,能夠分析出你今天在好望角錯過的魚群下個月會出現(xiàn)在哪里。什么?你說魚對你沒有吸引力?那如果預(yù)測的是未來股票的漲跌呢?如果預(yù)測的是未來行業(yè)的風(fēng)口呢?

????7、大數(shù)據(jù)企業(yè)都提供哪些服務(wù)?
????第一類,云平臺服務(wù)商,像亞馬遜、阿里云這些,就好比世界上一個個國家,管理各自的海域,你可以去他的海域里面捕魚,可以將你的海域交給他們管理,也可以直接買他們捕撈到的成品;
????第二類,數(shù)據(jù)交易中介,他們自身提供一些數(shù)據(jù),更主要的是搭建一個交易平臺,撮合數(shù)據(jù)提供者與數(shù)據(jù)使用者實現(xiàn)數(shù)據(jù)交換,促成數(shù)據(jù)價值的實現(xiàn),這有點像買賣各種湖泊、海洋的商人,買家拿到這些數(shù)據(jù)后,可以融合到自己的“海洋”里面去,讓自己的海洋變得更大,物產(chǎn)更豐富;
????第三類,大數(shù)據(jù)解決方案提供商,就是在數(shù)據(jù)海洋的各個角落派遣捕魚船隊,提供海洋開拓、資源掃描、采礦捕撈、加工銷售的一系列服務(wù),你想在數(shù)據(jù)大航海時代做的所有事情,他們都能幫你處理。

????8、大數(shù)據(jù)時代的思維變革
????舍恩伯格在《大數(shù)據(jù)時代》這本書里總結(jié)的大數(shù)據(jù)的三個特征,業(yè)內(nèi)人早已耳熟能詳,但也爭議頗多。但實際上,這三個看似不起眼的特征的背后,蘊含著對大數(shù)據(jù)深刻的理解和洞察。
????(1)要相關(guān)不要因果
????因果關(guān)系,既某種現(xiàn)象(原因),引起了另一種現(xiàn)象(結(jié)果),其原因和結(jié)果具有必然的聯(lián)系。尋找因果關(guān)系是我們認(rèn)識、了解世界的重要手段。
????在大數(shù)據(jù)時代,建立在相關(guān)分析法上的面的預(yù)測是大數(shù)據(jù)的核心。如果A和B經(jīng)常一起發(fā)生,那么當(dāng)B發(fā)生時,可以預(yù)測A也發(fā)生了。至于為什么會這樣,在某些應(yīng)用上,已經(jīng)沒那么重要。
? ? (2)要全體不要抽樣
????在過去,由于收集、儲存和分析數(shù)據(jù)的技術(shù)落后,對大量數(shù)據(jù)的收集成本非常高昂,我們只能收集少量的數(shù)據(jù)進(jìn)行分析。所以就會導(dǎo)致有很多小概率事件覆蓋不到,容易出現(xiàn)黑天鵝事件。甚至有些時候我們都不是基于實證檢驗,而只是憑借經(jīng)驗,假設(shè),和價值觀,就對客觀規(guī)律做出了總結(jié)。這就導(dǎo)致過去很多時候,人類對于客觀世界的認(rèn)知,是膚淺的、表面的、錯誤的。
????在大數(shù)據(jù)時代,可以獲取足夠大的數(shù)據(jù)樣本乃至全體數(shù)據(jù),在大數(shù)據(jù)時代依靠強大的數(shù)據(jù)處理能力,應(yīng)該去處理所有數(shù)據(jù)。
????總體而言,這條特征反映出來的是:大數(shù)據(jù)的『量變』引發(fā)了人類進(jìn)行分析和思考的核心層面上的『質(zhì)變』。
? ? (3)不是精確性,而是混雜性
????以最通俗的語言來說,就是在龐大的數(shù)據(jù)體量面前,每一個小的數(shù)據(jù)的精確性可以變得不是那么的重要,因為龐大的數(shù)量可以消除或極大地稀釋那些不準(zhǔn)確的部分。
????比如我們發(fā)100份調(diào)查問卷,里面如果有5個人是胡亂回答的,那可能就會極大地影響我們的調(diào)查結(jié)果;
????但如果我們發(fā)了10萬份調(diào)查問卷,那么即便是有50個人可以搗亂,那也不會對最終結(jié)果有太大的影響。
????同時,如我們在前面所提到的,看上去混雜無章的數(shù)據(jù),可以將原來看似無關(guān)的維度聯(lián)系起來。我們對這些不同維度的信息進(jìn)行挖掘、加工和整理,就能夠獲得有價值的統(tǒng)計規(guī)律。因此,在這個時候,數(shù)據(jù)的混雜性反而成為了大數(shù)據(jù)的優(yōu)勢,通過對不同維度的數(shù)據(jù)的分析,使這些維度開始出現(xiàn)相互交叉,數(shù)據(jù)之間的關(guān)聯(lián)性獲得了極大地增強,我們也因此能夠獲得更多的新的規(guī)律。

????上述呢,就是關(guān)于大數(shù)據(jù)的一些介紹。當(dāng)然,看完知乎大神的分享筆者也受益匪淺。接下來也得抽點時間,看看《大數(shù)據(jù)時代》這本書了!
????大部分轉(zhuǎn)載自:什么是大數(shù)據(jù)? - 小智的回答 - 知乎