HBase的應(yīng)用關(guān)鍵點(diǎn)

表創(chuàng)建

HBase的表創(chuàng)建可以通過hbase shellJava API。另外如果需要對(duì)列簇進(jìn)行修改的時(shí)候,需要先去disable表。
通過Java API修改列簇例如

Configuration config = HBaseConfiguration.create();
Admin admin = new Admin(conf);
TableName table = TableName.valueOf("myTable");

admin.disableTable(table);

HColumnDescriptor cf1 = ...;
admin.addColumn(table, cf1);      // adding new ColumnFamily
HColumnDescriptor cf2 = ...;
admin.modifyColumn(table, cf2);    // modifying existing ColumnFamily

admin.enableTable(table);

表設(shè)計(jì)關(guān)鍵點(diǎn)

因?yàn)閿?shù)據(jù)集千差萬別,有很多不同的期望,所以根據(jù)官網(wǎng)的這些經(jīng)驗(yàn)只是作為一個(gè)參考。

  • 每個(gè)region的size保持在10--50G
  • 每個(gè)cell最好不要超過10MB,如果使用HBaseMob,不要超過50MB。否則,直接存儲(chǔ)數(shù)據(jù)到HDFS上,然后存儲(chǔ)一個(gè)指標(biāo)索引到HBase中。
  • 一個(gè)典型的表設(shè)計(jì)在1--3個(gè)列簇。
  • 一張表中region數(shù)量最好在50--100個(gè),一個(gè)region上存儲(chǔ)的是列簇?cái)?shù)據(jù)的連續(xù)段。
  • 保證列簇的名字盡可能的短,列簇名在每個(gè)value中都有存儲(chǔ),不要認(rèn)為它類似于RDBMS表中的列名一樣,具備解釋說明的含義。
  • 如果說rowkey的設(shè)計(jì)是基于時(shí)間線或者日志信息來設(shè)計(jì)的,對(duì)表操作的讀寫,基本會(huì)落在新region上,較舊的數(shù)據(jù)不會(huì)進(jìn)行太多讀寫操作,這時(shí)候可以允許多region的存儲(chǔ)。
  • 如果只有一個(gè)列簇有比較大規(guī)模的寫入請(qǐng)求,且只有寫入請(qǐng)求占用內(nèi)存,這時(shí)候可以調(diào)配內(nèi)存資源在寫入模式上。

RegionServer的設(shè)計(jì)關(guān)鍵點(diǎn)

Personally I would place the maximum disk space per machine that can be served exclusively with HBase around 6T, unless you have a very read-heavy workload. In that case the Java heap should be 32GB (20G regions, 128M memstores, the rest defaults).
— Lars Hofhansl

從這段指導(dǎo)原則來看,我們?cè)诖罱℉Base集群的時(shí)候,盡可能的使用大機(jī)器來做regionserver。對(duì)于寫操作而言,每個(gè)region 20G大小,可以設(shè)置128M的memstores。

列簇的設(shè)計(jì)

對(duì)于列簇而言,設(shè)計(jì)原則是盡可能的少,如果是有兩個(gè)列簇,盡可能的保證數(shù)量size一致。因?yàn)槿绻粋€(gè)列簇A行有100萬,列簇B行有10億。這時(shí)候因?yàn)榱写谹分配在多個(gè)region上,會(huì)導(dǎo)致其scan的效率過低。

rowkey的設(shè)計(jì)

rowkey的設(shè)計(jì)關(guān)鍵點(diǎn)就是防止熱點(diǎn)數(shù)據(jù)的產(chǎn)生,也就防止把數(shù)據(jù)都集中在少數(shù)的region上,導(dǎo)致讀寫效率的問題。要設(shè)計(jì)一個(gè)好的rowkey,就需要給rowkey進(jìn)行Salting,通用的方式就是使用散列算法添加前綴。例如:

a-foo0003
b-foo0001
c-foo0003
c-foo0004
d-foo0002

關(guān)于rowkey的設(shè)計(jì)還有很多需要注意的地方,在此不做展開討論。

版本的設(shè)計(jì)

不建議將最大版本數(shù)設(shè)置為過高的水平(例如,數(shù)百個(gè)或更多),除非非常需要那些舊值,因?yàn)檫@會(huì)大大增加StoreFile的大小。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容