Phoenix的簡單使用

Phoenix的常用操作

Phoenix是架構(gòu)在Hbase上的一個SQL轉(zhuǎn)化組件,它可以把sql語句轉(zhuǎn)換成Hbase的一個或者多個掃描,然后分發(fā)到Hbase的Server端進(jìn)行查詢,提高了查詢效率同時避免開發(fā)者寫復(fù)雜的api代碼,只需要會sql即可操作hbase的數(shù)據(jù),大大降低了上手難度。

  • 前期準(zhǔn)備
    想要通過phoenix查詢Hbase的表必須先在phoenix建立映射表,映射到Hbase已存在的表,可以通過create view 和create table命令來實(shí)現(xiàn)
create view "t1" ("rowkey" varchar primary key,
"f1"."id" varchar,
"f2"."money" varchar,
"f1"."name" varchar,
) as select * from "t1";

create view和create table的區(qū)別是create table會加上一個驗(yàn)證信息,在phoenix刪除表的時候table會把hbase對應(yīng)的數(shù)據(jù)刪除,view則不會。

  • 添加依賴
       <dependency>
            <groupId>org.apache.phoenix</groupId>
            <artifactId>phoenix-core</artifactId>
            <version>4.10.0-HBase-1.1</version>
        </dependency>

        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.6.3</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.6.3</version>
            <exclusions>
                <exclusion>
                    <groupId>org.slf4j</groupId>
                    <artifactId>slf4j-log4j12</artifactId>
                </exclusion>
            </exclusions>
        </dependency>

在添加phoenix的依賴時需要加上hadoop的依賴包,不然會報找不到hadoop下的配置文件

  • 建立連接

C3P0配置文件
使用C3p0連接池可以很好配置多數(shù)據(jù)源,另外phoenix在查詢的時候建立連接的速度很慢,使用連接池可以大幅提高查詢的速度。

  <?xml version="1.0" encoding="UTF-8"?>
  <c3p0-config>
    <named-config name="phoenix">
        <property name="user"></property>
        <property name="password"></property>
        <property name="driverClass">org.apache.phoenix.jdbc.PhoenixDriver</property>
      <!--url是zookeeper的地址,可以有多個,用逗號隔開-->
         <property name="jdbcUrl">jdbc:phoenix:localhost:2181</property>
        <!--當(dāng)連接池中的連接耗盡的時候c3p0一次同時獲取的連接數(shù) -->
        <property name="acquireIncrement">2</property>
        <!--初始化時獲取十個連接,取值應(yīng)在minPoolSize與maxPoolSize之間 -->
        <property name="initialPoolSize">3</property>
        <!--連接池中保留的最小連接數(shù) -->
        <property name="minPoolSize">3</property>
        <!--連接池中保留的最大連接數(shù) -->
        <property name="maxPoolSize">10</property>
        <!--JDBC的標(biāo)準(zhǔn)參數(shù),用以控制數(shù)據(jù)源內(nèi)加載的PreparedStatements數(shù)量。但由于預(yù)緩存的statements屬于單個connection而不是整個連接池。所以設(shè)置這個參數(shù)需要考慮到多方面的因素。如果maxStatements與maxStatementsPerConnection均為0,則緩存被關(guān)閉。Default:
            0 -->
        <property name="maxStatements">20</property>
        <!--maxStatementsPerConnection定義了連接池內(nèi)單個連接所擁有的最大緩存statements數(shù)。Default: 0 -->
        <property name="maxStatementsPerConnection">5</property>
        <!-- 驗(yàn)證連接池里的連接(haproxy)有效性頻率,這里配置120s  -->
        <property name="idleConnectionTestPeriod">120</property>
        <!-- 驗(yàn)證語句 select 1最高效 -->
        <property name="preferredTestQuery">select 1</property>
    </named-config>

</c3p0-config>

C3P0的連接代碼這里就不貼出來了哈,和通用的sql連接一樣

  • 常用語法

1.sum等聚合函數(shù)
在hbase的存儲類型中,都是以字符串的形式存儲,因此在對某些字段進(jìn)行聚合操作時需要通過過to_number()函數(shù)把相應(yīng)的字段轉(zhuǎn)換成number類型。

select sum(to_number("money")) from t1;

2.分頁
phoenix的分頁不是像mysql的limit 1,3 這種分頁語法,而是用limit 3 offset 0 來實(shí)現(xiàn)分頁,另外phoenix的分頁是從0開始不是1

select name from t1 limit 3 offset 0;

3.排序
在使用phoenix的排序時,phoenix會把0作為null排在最前面,使用nulls last 可以解決次問題

select name,sum(to_number("money")) as money from t1 group by name order by money desc  nulls last;
  • 二級索引
    rowkey是hbase的一級索引,所有的查詢都通過rowkey來定位數(shù)據(jù),但是面對復(fù)雜查詢邏輯往往需要掃描全表來查詢數(shù)據(jù),這極大地降低了hbase的查詢效率,這時就需要使用索引來提高查詢的速度,在自己維護(hù)hbase的二級索引時十分繁瑣,現(xiàn)在通過phoenix就可以建立索引。

1.覆蓋索引
覆蓋索引一旦找到了對應(yīng)的索引,不需要返回主表,會直接把數(shù)據(jù)綁定到索引行,節(jié)省了讀取的開銷。

cteate index cover_index on t1(name,money) include(order)

上面語句的意思是在表t1的列name,money上創(chuàng)建索引cover_index,并在索引中包含了order列,防止從原始數(shù)據(jù)獲取該列。
2.功能索引
功能索引允許不僅可以在列上而且可以在任意表達(dá)式上創(chuàng)建索引。然后,當(dāng)一個查詢時使用該表達(dá)式時,索引可以用來檢索結(jié)果而不是數(shù)據(jù)表。
3.全局索引
建立全局索引主要是為了提高了讀操作的性能,但在寫操作的時候會損失一些性能,因?yàn)槿炙饕墙⒘藛为?dú)的habse表來存儲索引表的索引數(shù)據(jù)

cteate index blobal_index on t1(name)

在使用全局索引時盡量條件包含到索引列,不然會導(dǎo)致掃描全表,影響效率。同時需要在每個RegionServer的hbase-site.xml配置文件下添加一下屬性,用以支持全局或者本地索引。

<property>
<name>hbase.regionserver.wal.codec</name>
<value>org.apache.hadoop.hbase.regionserver.wal.IndexedWALEditCodec</value>
</property>

4.本地索引
本地索引主要適用于寫多讀少且空間非常有限的場景,與全局索引一樣,Phoenix將自動選擇是否在查詢時適用本地索引。索引數(shù)據(jù)表和原始數(shù)據(jù)表都放在相同的服務(wù)器中,為了防止在寫入期間出現(xiàn)額外的網(wǎng)絡(luò)開銷。但是即使查詢的字段不是索引字段,本地索引也會被使用,與全局索引不同的是,所有的本地索引都單獨(dú)存儲在同一張共享的表中,因?yàn)闊o法預(yù)先確定Region的位置,所以在讀數(shù)據(jù)的時候會檢查每個Region上的數(shù)據(jù),因此會帶來一定的性能開銷

#建立本地索引
create local index local_index  on t1(name);
#使用本地索引
select * from t1 where  name = 'xx';
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容