什么是大數(shù)據(jù)

先來(lái)介紹大數(shù)據(jù)的4個(gè)V,數(shù)據(jù)量大,實(shí)時(shí)性,類(lèi)型多樣,數(shù)據(jù)價(jià)值大

圖1

以淘寶為例,用戶(hù)量很大,商品很多,反應(yīng)了數(shù)據(jù)量大,

實(shí)時(shí)更新反應(yīng)在我們?nèi)硕?,下單卻沒(méi)有影響,實(shí)時(shí)下單

數(shù)據(jù)類(lèi)型多樣,如商家圖片還有各種數(shù)值字符串等信息

數(shù)據(jù)價(jià)值大,有用戶(hù)信息,商戶(hù)信息,

圖2

數(shù)據(jù)流向,以飲料廠水龍頭為例,數(shù)據(jù)就像水流不斷生成,我們需要數(shù)據(jù)收集層不斷收集,存儲(chǔ)成日志,當(dāng)我們的信息收集好后,需要專(zhuān)門(mén)存儲(chǔ)起來(lái),這里是數(shù)據(jù)存儲(chǔ)層

圖3

數(shù)據(jù)存儲(chǔ)不是光用來(lái)放著玩的,而是最終用來(lái)機(jī)器學(xué)習(xí)分析處理統(tǒng)計(jì),將其變成實(shí)際價(jià)值來(lái)使用,這就涉及到數(shù)據(jù)計(jì)算層

圖4

同時(shí)由于有多個(gè)節(jié)點(diǎn),為了調(diào)度資源,需要資源管理和服務(wù)協(xié)調(diào)層,就好比公司的人力資源,分配行政和技術(shù)等等部門(mén)的安排。最終數(shù)據(jù)可以可視化,可以機(jī)器學(xué)習(xí)指定下一步的策略

圖5

大數(shù)據(jù)的基本框架如上,每一層有之前說(shuō)的,也有沒(méi)說(shuō)過(guò)的,數(shù)據(jù)收集層,ETL分別對(duì)應(yīng)提取轉(zhuǎn)換,加載,計(jì)算引擎層,交互式分析后面講,其實(shí)這層的重點(diǎn)是批處理和流處理,批處理可以理解拿一堆數(shù)據(jù)一批處理,流處理可以理解流過(guò)水龍頭的閥對(duì)水流處理。數(shù)據(jù)倉(cāng)庫(kù)可以聯(lián)系數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)的數(shù)據(jù)是最原始的信息,可以理解為商店買(mǎi)到菜,數(shù)據(jù)倉(cāng)庫(kù)可以理解為我們買(mǎi)回家將其切好做了一些處理,但是還不能直接吃,后面可能講的數(shù)據(jù)集市是數(shù)據(jù)最終整理可用于計(jì)算處理,跑模型。數(shù)據(jù)可視化沒(méi)什么說(shuō)了,一些統(tǒng)計(jì)信息,最后將其輸出給用戶(hù)

圖6

大數(shù)據(jù)為什么要分那么多層級(jí),1數(shù)據(jù)量大,每個(gè)層必須專(zhuān)門(mén)處理,好比公司小的時(shí)候人力和財(cái)務(wù)可以分開(kāi),大到一定程度就必須分離,2分布式,大數(shù)據(jù)是多個(gè)服務(wù)器并行處理3實(shí)時(shí)性強(qiáng),要結(jié)果像水一樣流出不能停滯

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容