「大數(shù)據(jù)」02大數(shù)據(jù)技術(shù)體系

從數(shù)據(jù)在信息系統(tǒng)中的生命周期看,大數(shù)據(jù)從數(shù)據(jù)源開始,經(jīng)過分析、挖掘到最終環(huán)節(jié)獲得價(jià)值一般需要經(jīng)過6個(gè)主要環(huán)節(jié):數(shù)據(jù)收集、數(shù)據(jù)存儲(chǔ)、資源管理與服務(wù)協(xié)調(diào)、計(jì)算引擎、數(shù)據(jù)分析和數(shù)據(jù)可視化。技術(shù)體系如圖:

大數(shù)據(jù)技術(shù)體系

(1)數(shù)據(jù)收集層(ETL,即提取、轉(zhuǎn)換、加載)

????數(shù)據(jù)收集層由直接跟數(shù)據(jù)源對(duì)接的模塊構(gòu)成,負(fù)責(zé)將數(shù)據(jù)源中的數(shù)據(jù)近實(shí)時(shí)或?qū)崟r(shí)收集到一起。數(shù)據(jù)源具有的特點(diǎn):

①分布式:分布在不同機(jī)器或設(shè)備上,通過網(wǎng)絡(luò)連接在一起。

②異構(gòu)性:產(chǎn)生源頭多樣,比如Web服務(wù)器、數(shù)據(jù)庫(kù)、傳感器等。

③多樣化:數(shù)據(jù)格式多樣。

④流式產(chǎn)生:任意環(huán)節(jié)都會(huì)產(chǎn)生。

所以適用于大數(shù)據(jù)領(lǐng)域的收集系統(tǒng),一般具備以下特點(diǎn):

①擴(kuò)展性:靈活連接不同數(shù)據(jù)源。

②可靠性:數(shù)據(jù)在傳輸過程中不能丟失或容忍少量丟失。

③安全性:保證收集敏感數(shù)據(jù)不產(chǎn)生安全隱患。

④低延遲:數(shù)據(jù)產(chǎn)生后在較低延遲前提下傳輸?shù)酱鎯?chǔ)系統(tǒng)中。

(2)數(shù)據(jù)存儲(chǔ)層

????數(shù)據(jù)存儲(chǔ)層主要負(fù)責(zé)海量結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)。適用于大數(shù)據(jù)領(lǐng)域的存儲(chǔ)系統(tǒng),一般具備以下特點(diǎn):

①擴(kuò)展性:隨著數(shù)據(jù)量的增加,存儲(chǔ)系統(tǒng)必須具備非常好的線性擴(kuò)展內(nèi)存能力。

②容錯(cuò)性:機(jī)器出現(xiàn)故障時(shí)系統(tǒng)數(shù)據(jù)不丟失。

③存儲(chǔ)模型:由于數(shù)據(jù)具有多樣性,存儲(chǔ)系統(tǒng)應(yīng)支持多種數(shù)據(jù)模型,確保各類數(shù)據(jù)可以保存。

(3)資源管理與服務(wù)協(xié)調(diào)層

????相較于“一種應(yīng)用一個(gè)集群”的模式,應(yīng)用輕量級(jí)彈性資源管理平臺(tái)的好處:

①資源利用率高:如果每個(gè)應(yīng)用一個(gè)集群,往往會(huì)由于應(yīng)用程序數(shù)量和資源需求的不均衡,造成集群資源的短時(shí)間緊缺或浪費(fèi)。共享集群模式通過各種應(yīng)用共享資源,使得集群中的資源得到充分利用。

②運(yùn)營(yíng)成本低。

③數(shù)據(jù)共享:跨集群間的數(shù)據(jù)移動(dòng)不僅需要花費(fèi)時(shí)間,還增加了硬件成本。而共享集群模式可以讓多種應(yīng)用共享數(shù)據(jù)和硬件資源,大大減少了數(shù)據(jù)移動(dòng)帶來(lái)的成本。

????而在構(gòu)建分布式大數(shù)據(jù)系統(tǒng)時(shí),會(huì)面臨很多共同的問題,包括leader選舉、服務(wù)命名、分布式隊(duì)列、分布式鎖、發(fā)布訂閱功能等,為了避免重復(fù)開發(fā)這些功能,通常會(huì)構(gòu)建一個(gè)統(tǒng)一的服務(wù)協(xié)調(diào)組件,包含了開發(fā)分布式系統(tǒng)過程中通用的功能。

(4)計(jì)算引擎層

????按照對(duì)時(shí)間性能的要求,可將計(jì)算引擎分為三類:

計(jì)算引擎分類(按照對(duì)時(shí)間性能的要求)

①批處理:對(duì)時(shí)間要求最低,追求的是高吞吐量,即單位時(shí)間內(nèi)處理的數(shù)據(jù)量盡可能大。

②交互式處理:對(duì)時(shí)間要求較高,需要跟人進(jìn)行交互,會(huì)提供類SQL的語(yǔ)言便于用戶使用。

③實(shí)時(shí)處理:對(duì)時(shí)間要求最高,注重時(shí)效性。

(5)數(shù)據(jù)分析層

????數(shù)據(jù)分析層直接跟用戶應(yīng)用程序?qū)?,為其提供易用的?shù)據(jù)處理工具。計(jì)算引擎提供的工具包括應(yīng)用程序API、類SQL查詢語(yǔ)言、數(shù)據(jù)挖掘SDK等。

????數(shù)據(jù)分析層典型的模式:首先使用批處理框架對(duì)原始海量數(shù)據(jù)進(jìn)行分析,產(chǎn)生較小規(guī)模的數(shù)據(jù)集,在此基礎(chǔ)上,再使用交互式處理工具對(duì)該數(shù)據(jù)集進(jìn)行快速查詢,獲取最終結(jié)果。

(6)數(shù)據(jù)可視化層

????數(shù)據(jù)可視化技術(shù)指的是運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來(lái),并進(jìn)行交互處理的理論、方法和技術(shù)。


文章內(nèi)容整理于:董西成《大數(shù)據(jù)技術(shù)體系詳解:原理、架構(gòu)與實(shí)踐》

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容