Phoenix的常用操作
Phoenix是架構(gòu)在Hbase上的一個SQL轉(zhuǎn)化組件,它可以把sql語句轉(zhuǎn)換成Hbase的一個或者多個掃描,然后分發(fā)到Hbase的Server端進(jìn)行查詢,提高了查詢效率同時避免開發(fā)者寫復(fù)雜的api代碼,只需要會sql即可操作hbase的數(shù)據(jù),大大降低了上手難度。
-
前期準(zhǔn)備
想要通過phoenix查詢Hbase的表必須先在phoenix建立映射表,映射到Hbase已存在的表,可以通過create view 和create table命令來實(shí)現(xiàn)
create view "t1" ("rowkey" varchar primary key,
"f1"."id" varchar,
"f2"."money" varchar,
"f1"."name" varchar,
) as select * from "t1";
create view和create table的區(qū)別是create table會加上一個驗(yàn)證信息,在phoenix刪除表的時候table會把hbase對應(yīng)的數(shù)據(jù)刪除,view則不會。
- 添加依賴
<dependency>
<groupId>org.apache.phoenix</groupId>
<artifactId>phoenix-core</artifactId>
<version>4.10.0-HBase-1.1</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-hdfs</artifactId>
<version>2.6.3</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.6.3</version>
<exclusions>
<exclusion>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
</exclusion>
</exclusions>
</dependency>
在添加phoenix的依賴時需要加上hadoop的依賴包,不然會報找不到hadoop下的配置文件
- 建立連接
C3P0配置文件
使用C3p0連接池可以很好配置多數(shù)據(jù)源,另外phoenix在查詢的時候建立連接的速度很慢,使用連接池可以大幅提高查詢的速度。
<?xml version="1.0" encoding="UTF-8"?>
<c3p0-config>
<named-config name="phoenix">
<property name="user"></property>
<property name="password"></property>
<property name="driverClass">org.apache.phoenix.jdbc.PhoenixDriver</property>
<!--url是zookeeper的地址,可以有多個,用逗號隔開-->
<property name="jdbcUrl">jdbc:phoenix:localhost:2181</property>
<!--當(dāng)連接池中的連接耗盡的時候c3p0一次同時獲取的連接數(shù) -->
<property name="acquireIncrement">2</property>
<!--初始化時獲取十個連接,取值應(yīng)在minPoolSize與maxPoolSize之間 -->
<property name="initialPoolSize">3</property>
<!--連接池中保留的最小連接數(shù) -->
<property name="minPoolSize">3</property>
<!--連接池中保留的最大連接數(shù) -->
<property name="maxPoolSize">10</property>
<!--JDBC的標(biāo)準(zhǔn)參數(shù),用以控制數(shù)據(jù)源內(nèi)加載的PreparedStatements數(shù)量。但由于預(yù)緩存的statements屬于單個connection而不是整個連接池。所以設(shè)置這個參數(shù)需要考慮到多方面的因素。如果maxStatements與maxStatementsPerConnection均為0,則緩存被關(guān)閉。Default:
0 -->
<property name="maxStatements">20</property>
<!--maxStatementsPerConnection定義了連接池內(nèi)單個連接所擁有的最大緩存statements數(shù)。Default: 0 -->
<property name="maxStatementsPerConnection">5</property>
<!-- 驗(yàn)證連接池里的連接(haproxy)有效性頻率,這里配置120s -->
<property name="idleConnectionTestPeriod">120</property>
<!-- 驗(yàn)證語句 select 1最高效 -->
<property name="preferredTestQuery">select 1</property>
</named-config>
</c3p0-config>
C3P0的連接代碼這里就不貼出來了哈,和通用的sql連接一樣
- 常用語法
1.sum等聚合函數(shù)
在hbase的存儲類型中,都是以字符串的形式存儲,因此在對某些字段進(jìn)行聚合操作時需要通過過to_number()函數(shù)把相應(yīng)的字段轉(zhuǎn)換成number類型。
select sum(to_number("money")) from t1;
2.分頁
phoenix的分頁不是像mysql的limit 1,3 這種分頁語法,而是用limit 3 offset 0 來實(shí)現(xiàn)分頁,另外phoenix的分頁是從0開始不是1
select name from t1 limit 3 offset 0;
3.排序
在使用phoenix的排序時,phoenix會把0作為null排在最前面,使用nulls last 可以解決次問題
select name,sum(to_number("money")) as money from t1 group by name order by money desc nulls last;
-
二級索引
rowkey是hbase的一級索引,所有的查詢都通過rowkey來定位數(shù)據(jù),但是面對復(fù)雜查詢邏輯往往需要掃描全表來查詢數(shù)據(jù),這極大地降低了hbase的查詢效率,這時就需要使用索引來提高查詢的速度,在自己維護(hù)hbase的二級索引時十分繁瑣,現(xiàn)在通過phoenix就可以建立索引。
1.覆蓋索引
覆蓋索引一旦找到了對應(yīng)的索引,不需要返回主表,會直接把數(shù)據(jù)綁定到索引行,節(jié)省了讀取的開銷。
cteate index cover_index on t1(name,money) include(order)
上面語句的意思是在表t1的列name,money上創(chuàng)建索引cover_index,并在索引中包含了order列,防止從原始數(shù)據(jù)獲取該列。
2.功能索引
功能索引允許不僅可以在列上而且可以在任意表達(dá)式上創(chuàng)建索引。然后,當(dāng)一個查詢時使用該表達(dá)式時,索引可以用來檢索結(jié)果而不是數(shù)據(jù)表。
3.全局索引
建立全局索引主要是為了提高了讀操作的性能,但在寫操作的時候會損失一些性能,因?yàn)槿炙饕墙⒘藛为?dú)的habse表來存儲索引表的索引數(shù)據(jù)
cteate index blobal_index on t1(name)
在使用全局索引時盡量條件包含到索引列,不然會導(dǎo)致掃描全表,影響效率。同時需要在每個RegionServer的hbase-site.xml配置文件下添加一下屬性,用以支持全局或者本地索引。
<property>
<name>hbase.regionserver.wal.codec</name>
<value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>
4.本地索引
本地索引主要適用于寫多讀少且空間非常有限的場景,與全局索引一樣,Phoenix將自動選擇是否在查詢時適用本地索引。索引數(shù)據(jù)表和原始數(shù)據(jù)表都放在相同的服務(wù)器中,為了防止在寫入期間出現(xiàn)額外的網(wǎng)絡(luò)開銷。但是即使查詢的字段不是索引字段,本地索引也會被使用,與全局索引不同的是,所有的本地索引都單獨(dú)存儲在同一張共享的表中,因?yàn)闊o法預(yù)先確定Region的位置,所以在讀數(shù)據(jù)的時候會檢查每個Region上的數(shù)據(jù),因此會帶來一定的性能開銷
#建立本地索引
create local index local_index on t1(name);
#使用本地索引
select * from t1 where name = 'xx';