kudu系統(tǒng)介紹

最近從一個(gè)骨灰級(jí)大神同事那里了解到kudu系統(tǒng),火車上剛好適合學(xué)習(xí),就了解了一下。發(fā)覺(jué)這個(gè)系統(tǒng)的理念還是很先進(jìn)的,和我們項(xiàng)目組目前的開發(fā)愿景很相似。大概總結(jié)一下,后續(xù)再持續(xù)關(guān)注細(xì)節(jié)。


系統(tǒng)背景

當(dāng)前基于hadoop的大數(shù)據(jù)系統(tǒng)大多數(shù)是混合架構(gòu),通過(guò)hbase做實(shí)時(shí)更新,數(shù)據(jù)后臺(tái)定期轉(zhuǎn)儲(chǔ)到hdfs以支持快速分析生成報(bào)表?;旌霞軜?gòu)如下圖所示:

基于hadoop的混合架構(gòu)

雖然當(dāng)前的架構(gòu)可以滿足用戶需求,但是過(guò)于繁瑣,存儲(chǔ)和維護(hù)的成本還是很大。kudu的愿景就是通過(guò)打造一個(gè)高效支持scan和random access,同時(shí)結(jié)合當(dāng)前內(nèi)存、cpu、存儲(chǔ)介質(zhì)的高性能以提供一個(gè)優(yōu)雅高速的存儲(chǔ)方案來(lái)避免hadoop的混合部署問(wèn)題。


技術(shù)目標(biāo)

對(duì)數(shù)據(jù)掃描(scan)和隨機(jī)訪問(wèn)(random access)同時(shí)具有高性能,簡(jiǎn)化用戶復(fù)雜的混合架構(gòu);

高CPU效率,最大化先進(jìn)處理器的效能;

高IO性能,充分利用先進(jìn)永久存儲(chǔ)介質(zhì);

支持?jǐn)?shù)據(jù)的原地更新,避免額外的數(shù)據(jù)處理、數(shù)據(jù)移動(dòng)

理想很美好。至于怎么實(shí)現(xiàn)筆者暫時(shí)還沒(méi)有深入分析。后續(xù)會(huì)補(bǔ)上具體細(xì)節(jié)學(xué)習(xí)。更多Kudu架構(gòu)細(xì)節(jié),請(qǐng)查閱http://getkudu.io/kudu.pdf

Kudu提供了C++、Java API支持點(diǎn)操作與批操作。Kudu的另一個(gè)目標(biāo)是與現(xiàn)有的Hadoop生態(tài)系統(tǒng)工具進(jìn)行集成。目前,Kudu的Beta版本已經(jīng)與Impala、MapReduce以及Apache Spark實(shí)現(xiàn)了整合,并計(jì)劃將Kudu集成到整個(gè)Hadoop生態(tài)系統(tǒng)中。

理念很好,后續(xù)持續(xù)關(guān)注。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容