Druid翻譯三:加載數(shù)據(jù)

選擇提取方法

Druid支持流式(實時)和基于文件(批量)的數(shù)據(jù)提取方式。最常用的配置是:

  • Files - 通過HDFS、S3、本地文件或者任何支持hadoop文件系統(tǒng)批量加載數(shù)據(jù)。如果你的數(shù)據(jù)集已經(jīng)在這類文件系統(tǒng)中推薦使用這個方法。
  • Stream push - 使用Tranquility(向Druid發(fā)送流的客戶端)將實時數(shù)據(jù)流推送到Druid。如果你的數(shù)據(jù)集來自于流式系統(tǒng),如Kafka, Storm, Spark Streaming或者自建的流系統(tǒng),推薦使用此方法。
  • Stream pull - 使用實時節(jié)點直接從外部數(shù)據(jù)源將數(shù)據(jù)流拉入Druid。

入門

最簡單的方式是通過學習下面三個教程來開始加載自己的數(shù)據(jù):

批處理、流式混合模式

在batch/streaming架構(gòu)中,你可以混合使用批處理、流式的方法。在混合(Hybrid )模式中,您可以使用流式方法來執(zhí)行初次提取,然后以批處理方式定期提取舊數(shù)據(jù)(通常是每幾小時或者夜維)。當Druid重新獲取時間范圍內(nèi)的數(shù)據(jù)時,新數(shù)據(jù)會自動替換早期提取的數(shù)據(jù)。
在某些故障情況下,當下所有的Druid流式數(shù)據(jù)傳輸方法都會導致數(shù)據(jù)的丟失或重復。通過批量重新攝取數(shù)據(jù)可以消除歷史數(shù)據(jù)中的這種潛在的威脅。
如果您因任何原因需要修改數(shù)據(jù),則批量重新提取還可讓您重新提取數(shù)據(jù)。

原文鏈接:http://druid.io/docs/0.9.2/tutorials/ingestion.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容