HBase 數(shù)據(jù)遷移

數(shù)據(jù)來(lái)源

  • logs
  • RDBMS

ways of move data into HBase

  • HBase put API
  • HBase bulk load tool
  • 自定義MR job
    最常見(jiàn)的
  • RDBMS抽取數(shù)據(jù)
    • JDBC,通用,實(shí)時(shí)性(全量/增量)
  • HBase插入數(shù)據(jù)
    • 多線(xiàn)程,通用
  • kettle

import TSV

  • 使用bulkload講file裝換成HFile后再上傳:通常MapReduce在寫(xiě)HBase時(shí)使用的是tableOutPutFormat方式,在reduce中直接生成put對(duì)象寫(xiě)入HBase,該方式在大量的數(shù)據(jù)寫(xiě)入時(shí)效率低下,頻繁使用flush,split,compact等大量I/O操作,并對(duì)HBase節(jié)點(diǎn)的穩(wěn)定性造成一定影響,(GC時(shí)間過(guò)長(zhǎng),相應(yīng)變慢,到直接點(diǎn)超時(shí)退出,引起一系列連鎖反應(yīng))
  • HBase支持bulk load的入庫(kù)方式,是利用HBase的數(shù)據(jù)信息按照特定格式存儲(chǔ)在HDFS上的這一原理,直接在HDFS中生成持久化的HFile數(shù)據(jù)格式文件上傳,即完成巨量數(shù)據(jù)快速入庫(kù)的辦法,配合MR使用,快捷高效,而且不占用region的資源,降低對(duì)HBase節(jié)點(diǎn)的壓力
    • 消除了HBase集群的插入壓力
    • 提高了job的運(yùn)行速度
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀(guān)點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容