大數(shù)據(jù)技術(shù)流程和關(guān)鍵系統(tǒng)介紹

經(jīng)過前段時(shí)間的學(xué)習(xí),加深了對(duì)大數(shù)據(jù)技術(shù)的處理流程和關(guān)鍵系統(tǒng)的理解,下面就對(duì)其做個(gè)小結(jié),爭(zhēng)取把自己掌握的東西講清楚說明白。

大數(shù)據(jù)技術(shù)流程

隨著計(jì)算能力的提高和機(jī)器學(xué)習(xí)算法的逐步成熟,大數(shù)據(jù)技術(shù)已經(jīng)得到空前的發(fā)展,數(shù)據(jù)團(tuán)隊(duì)成為互聯(lián)網(wǎng)公司的標(biāo)配,數(shù)據(jù)團(tuán)隊(duì)的技術(shù)水平也成為衡量企業(yè)技術(shù)水準(zhǔn)的關(guān)鍵指標(biāo)。說起大數(shù)據(jù),大家首先想到的是Hadoop,Spark等,在深入了解之后,發(fā)現(xiàn)這種理解過于片面,下面就對(duì)大數(shù)據(jù)相關(guān)的概念做一個(gè)梳理。
大數(shù)據(jù)技術(shù)可以分為以下六個(gè)步驟:

1.JPG

(1) 數(shù)據(jù)收集及準(zhǔn)備:搞大數(shù)據(jù),首先要具備足夠的數(shù)據(jù)量,典型的數(shù)據(jù)源有服務(wù)器的日志數(shù)據(jù),用戶訪問Web站點(diǎn)的瀏覽行為數(shù)據(jù),各大銀行中用戶的消費(fèi)數(shù)據(jù)等。
(2)數(shù)據(jù)的存儲(chǔ):數(shù)據(jù)收集到之后我們要想辦法把它存儲(chǔ)下來以供接下來的處理和分析。
(3)資源的管理:在大數(shù)據(jù)處理系統(tǒng)中,傳統(tǒng)的單機(jī)已經(jīng)不能滿足要求,需要分布式集群來協(xié)同工作,多臺(tái)機(jī)器在一起工作需要有一個(gè)資源管理系統(tǒng)對(duì)集群資源進(jìn)行調(diào)度。
(4)計(jì)算框架:海量數(shù)據(jù)存儲(chǔ)在集群中,數(shù)據(jù)存儲(chǔ)在那里不深入挖掘是沒有經(jīng)濟(jì)價(jià)值的,我們需要一些計(jì)算框架對(duì)存儲(chǔ)的數(shù)據(jù)做基本的預(yù)處理,典型的計(jì)算框架有批處理的計(jì)算框架,交互式分析的計(jì)算框架,流式處理的計(jì)算框架等
(5)數(shù)據(jù)分析:在前面的基礎(chǔ)上,我們可以開展一些深層次的分析,挖掘海量數(shù)據(jù)中存在的經(jīng)濟(jì)價(jià)值,比如分析服務(wù)器日志數(shù)據(jù)可以幫助我們制定更加科學(xué)的負(fù)載均衡策略,分析用戶Web站點(diǎn)的瀏覽行為做一些推薦營(yíng)銷等。數(shù)據(jù)分析系統(tǒng)常見的有OLAP(聯(lián)機(jī)分析處理),OLTP(聯(lián)機(jī)事務(wù)處理)等。
(6)數(shù)據(jù)的展示:在數(shù)據(jù)處理和分析后,我們需要將結(jié)果以直觀的方式展現(xiàn)出來,比如生成報(bào)表等。

大數(shù)據(jù)關(guān)鍵系統(tǒng)介紹

在上面詳細(xì)分析了大數(shù)據(jù)技術(shù)的基本流程基礎(chǔ)上,下面介紹下上述各個(gè)流程中典型的系統(tǒng):

2.JPG

(1)數(shù)據(jù)收集及準(zhǔn)備:在收據(jù)收集中,典型的收集系統(tǒng)有Flume(用于收集日志數(shù)據(jù)),Sqoop(將關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)遷移到數(shù)據(jù)存儲(chǔ)系統(tǒng)中)等。
(2)數(shù)據(jù)的存儲(chǔ):在大數(shù)據(jù)存儲(chǔ)中最經(jīng)典的就是HDFS(分布式文件系統(tǒng)),基于Google的GFS。
(3)資源管理:YARN主要負(fù)責(zé)資源管理和調(diào)度,它是Hadoop2.0中新增的系統(tǒng)。Zookeeper主要解決分布式環(huán)境下數(shù)據(jù)管理問題,用于主備自動(dòng)切換。
(4)計(jì)算框架:常見的計(jì)算框架有Mapreduce(適用于離線處理),Hive也是用于離線處理,它定義了一種類似SQL查詢語言,可以將SQL翻譯Mapreudce執(zhí)行,省去了編寫大量程序;交互式的查詢引擎Presto,它是基于內(nèi)存的、支持任意數(shù)據(jù)源、與Hive兼容;流式處理計(jì)算框架Storm,Spark Streaming。
(5)數(shù)據(jù)分析:在前面的基礎(chǔ)上有一些數(shù)據(jù)分析的機(jī)器學(xué)習(xí)類庫,如Mahout,Spark的MLlib等。
(6)數(shù)據(jù)的展示:目前流行的可視化工具有D3.js、Echart,Tabluea等。

備注

Hadoop是大數(shù)據(jù)的生態(tài)系統(tǒng),它里面包含許多開源的組件,不同的組件對(duì)應(yīng)于處理流程中的各個(gè)子系統(tǒng),我們大部分關(guān)注的是數(shù)據(jù)分析這個(gè)步驟,在這個(gè)步驟中做一些數(shù)據(jù)挖掘,搜索推薦等工作。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容