數(shù)據(jù)來(lái)源
- logs
- RDBMS
ways of move data into HBase
- HBase put API
- HBase bulk load tool
- 自定義MR job
最常見(jiàn)的 - RDBMS抽取數(shù)據(jù)
- JDBC,通用,實(shí)時(shí)性(全量/增量)
- HBase插入數(shù)據(jù)
- 多線(xiàn)程,通用
- kettle
import TSV
- 使用bulkload講file裝換成HFile后再上傳:通常MapReduce在寫(xiě)HBase時(shí)使用的是tableOutPutFormat方式,在reduce中直接生成put對(duì)象寫(xiě)入HBase,該方式在大量的數(shù)據(jù)寫(xiě)入時(shí)效率低下,頻繁使用flush,split,compact等大量I/O操作,并對(duì)HBase節(jié)點(diǎn)的穩(wěn)定性造成一定影響,(GC時(shí)間過(guò)長(zhǎng),相應(yīng)變慢,到直接點(diǎn)超時(shí)退出,引起一系列連鎖反應(yīng))
- HBase支持bulk load的入庫(kù)方式,是利用HBase的數(shù)據(jù)信息按照特定格式存儲(chǔ)在HDFS上的這一原理,直接在HDFS中生成持久化的HFile數(shù)據(jù)格式文件上傳,即完成巨量數(shù)據(jù)快速入庫(kù)的辦法,配合MR使用,快捷高效,而且不占用region的資源,降低對(duì)HBase節(jié)點(diǎn)的壓力
- 消除了HBase集群的插入壓力
- 提高了job的運(yùn)行速度