druid.io 海量實(shí)時(shí)OLAP數(shù)據(jù)倉(cāng)庫(kù)

druid.io 海量實(shí)時(shí)OLAP數(shù)據(jù)倉(cāng)庫(kù) (翻譯+總結(jié)) (1) - lpthread - 博客園 http://www.cnblogs.com/lpthread/p/4519687.html

//
為什么要用Druid?
Druid的初衷是為了解決在使用Hadoop進(jìn)行查詢時(shí)所遇見的高延時(shí)問題來提高交互性查詢。尤其是當(dāng)你對(duì)數(shù)據(jù)進(jìn)行匯總之后并在你匯總之后的數(shù)據(jù)上面進(jìn)行查詢時(shí)效果更好。將你匯總之后的數(shù)據(jù)插入Druid,隨著你的數(shù)據(jù)量在不斷增長(zhǎng),你仍然可以對(duì)Druid的查詢能力非常有信心。當(dāng)前的Druid安裝實(shí)例已經(jīng)可以很好的處理以每小時(shí)數(shù)TB實(shí)時(shí)遞增的數(shù)據(jù)量。
(注: 在我們的實(shí)踐中 druid 查詢統(tǒng)計(jì)100億數(shù)據(jù), 在5秒內(nèi)響應(yīng)。 查詢1個(gè)月的數(shù)據(jù), 基本可以在毫秒內(nèi)完成。 比hadoop的常用的T+1 Map Reduce 高效多了.

你可以在擁有Hadoop的同時(shí)創(chuàng)建一個(gè)Druid系統(tǒng)。Druid提供了以一種互動(dòng)式切片、切塊方式來訪問數(shù)據(jù)的能力,它在查詢的靈活性和存儲(chǔ)格式直接尋找平衡從而來提供更好的查詢速度。
如果想了解更多細(xì)節(jié),請(qǐng)參考 White Paper 和Design 文檔.

//
什么情況下需要Druid?
當(dāng)你需要在大數(shù)據(jù)集上面進(jìn)行快速的,交互式的查詢時(shí)
當(dāng)你需要進(jìn)行特殊的數(shù)據(jù)分析,而不只是簡(jiǎn)單的鍵值對(duì)存儲(chǔ)時(shí)
當(dāng)你擁有大量的數(shù)據(jù)時(shí) (每天新增數(shù)百億的記錄、每天新增數(shù)十TB的數(shù)據(jù))
當(dāng)你想要分析實(shí)時(shí)產(chǎn)生的數(shù)據(jù)時(shí)
當(dāng)你需要一個(gè)24x7x365無時(shí)無刻不可用的數(shù)據(jù)存儲(chǔ)時(shí)


//
Druid和Spark對(duì)比 - lpthread - 博客園 http://www.cnblogs.com/lpthread/p/4522641.html
Druid 被設(shè)計(jì)成增強(qiáng)的分析應(yīng)用, 重點(diǎn)關(guān)注注入數(shù)據(jù)和查詢數(shù)據(jù)的延時(shí)問題。 如果你開發(fā)了WEB界面用于任意維度的探索查詢數(shù)據(jù), 會(huì)發(fā)現(xiàn)交互式查詢Spark可能很慢。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容