druid.io 海量實(shí)時(shí)OLAP數(shù)據(jù)倉(cāng)庫(kù) (翻譯+總結(jié)) (1) - lpthread - 博客園 http://www.cnblogs.com/lpthread/p/4519687.html
//
為什么要用Druid?
Druid的初衷是為了解決在使用Hadoop進(jìn)行查詢時(shí)所遇見的高延時(shí)問題來提高交互性查詢。尤其是當(dāng)你對(duì)數(shù)據(jù)進(jìn)行匯總之后并在你匯總之后的數(shù)據(jù)上面進(jìn)行查詢時(shí)效果更好。將你匯總之后的數(shù)據(jù)插入Druid,隨著你的數(shù)據(jù)量在不斷增長(zhǎng),你仍然可以對(duì)Druid的查詢能力非常有信心。當(dāng)前的Druid安裝實(shí)例已經(jīng)可以很好的處理以每小時(shí)數(shù)TB實(shí)時(shí)遞增的數(shù)據(jù)量。
(注: 在我們的實(shí)踐中 druid 查詢統(tǒng)計(jì)100億數(shù)據(jù), 在5秒內(nèi)響應(yīng)。 查詢1個(gè)月的數(shù)據(jù), 基本可以在毫秒內(nèi)完成。 比hadoop的常用的T+1 Map Reduce 高效多了.
你可以在擁有Hadoop的同時(shí)創(chuàng)建一個(gè)Druid系統(tǒng)。Druid提供了以一種互動(dòng)式切片、切塊方式來訪問數(shù)據(jù)的能力,它在查詢的靈活性和存儲(chǔ)格式直接尋找平衡從而來提供更好的查詢速度。
如果想了解更多細(xì)節(jié),請(qǐng)參考 White Paper 和Design 文檔.
//
什么情況下需要Druid?
當(dāng)你需要在大數(shù)據(jù)集上面進(jìn)行快速的,交互式的查詢時(shí)
當(dāng)你需要進(jìn)行特殊的數(shù)據(jù)分析,而不只是簡(jiǎn)單的鍵值對(duì)存儲(chǔ)時(shí)
當(dāng)你擁有大量的數(shù)據(jù)時(shí) (每天新增數(shù)百億的記錄、每天新增數(shù)十TB的數(shù)據(jù))
當(dāng)你想要分析實(shí)時(shí)產(chǎn)生的數(shù)據(jù)時(shí)
當(dāng)你需要一個(gè)24x7x365無時(shí)無刻不可用的數(shù)據(jù)存儲(chǔ)時(shí)
//
Druid和Spark對(duì)比 - lpthread - 博客園 http://www.cnblogs.com/lpthread/p/4522641.html
Druid 被設(shè)計(jì)成增強(qiáng)的分析應(yīng)用, 重點(diǎn)關(guān)注注入數(shù)據(jù)和查詢數(shù)據(jù)的延時(shí)問題。 如果你開發(fā)了WEB界面用于任意維度的探索查詢數(shù)據(jù), 會(huì)發(fā)現(xiàn)交互式查詢Spark可能很慢。