Hive函數(shù)

函數(shù)分類

cli命令
- 顯示當前對話有多少函數(shù)可用 show functions;
- 顯示函數(shù)的表述信息 desc function concat;
- 顯示函數(shù)的擴展描述信息 desc function extended concat;
簡單函數(shù)
特殊函數(shù)
- 窗口函數(shù)
  - 應用場景
    - 用于分區(qū)排序
    - 動態(tài)Group by
    - Top N
    - 累計計算
    - 層次查詢
  - Windowing function
    - lead
    - lag
    - FIRST_VALUE
    - LAST_VALUE
- 分析函數(shù)
  - THE OVER clause
    - COUNT
    - SUM
    - MIN
    - MAX
    - AVG
  - Analytics functions
    - RANK
    - ROW_NUIMBER
    - DENSE_RANK
    - CUME_DIST
    - PERCENT_RANK
    - NTILE
- 混合函數(shù)
  - java_method(class,method[,arg1[,arg2...]])
  - reflect(class,method[,arg1[,arg2...]])
  - hash(a1[,a2])
- UDTF
  - 表函數(shù)
    - lateralView:LATERAL VIEW udtf(expression) tableAlias AS columnAlias(',',columnAlias)* fromClause:FROM baseTable(lateralView)*
  - 例子
    - explode函數(shù) :行展開為列

內(nèi)置函數(shù)

正則表達式

使用正則表達式的函數(shù)
A LIKE B，字符"_"表示任意單個字符，而字符"%"表示任意數(shù)量的字符
A RLIKE B
- select 1 from dual where 'footbar' rlike ^f.*r$;
regexp_replace(string A,string B,string C)
- select regexp_replace('footbar','oo|ar','') from dual;(return 'fb')
regexp_extract(string subject,string pattern,int index)
- select regexp_extract('foothebar','foo(.*?)(bar)',1) from winfunc;

自定義函數(shù)

UDF

UDF-用戶自定義函數(shù)(user defined function)
- 針對單條記錄
創(chuàng)建函數(shù)
- 自定義一個java類
- 繼承UDF類
- 重寫evaluate方法
- 打jar包
- hive執(zhí)行add jar
  - add jar /home/jar/function.jar
- hive執(zhí)行創(chuàng)建模板函數(shù)
  - create temporary function bigthan as 'com.udf.udftest';
- hql中使用

UDAF

UDAF用戶自定義聚合函數(shù)
- user defined aggregation function
- 針對記錄集合
開發(fā)通用UDAF有兩個步驟
- 第一個是編寫resolver類，resolver負責類型檢查，操作符重載。
- 第二個是編寫evaluator類，evaluator真正實現(xiàn)UDAF的邏輯
通常來說，頂層UDAF類繼承org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2,里面編寫嵌套類evaluator實現(xiàn)UDAF的邏輯
實現(xiàn)resolver
- resolver通常繼承org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2，但是更建議繼承AbstractGenericUDAFResolver，隔離將來hive接口的變化。GenericUDResolver和GenericUDResolver2接口的區(qū)別是，后面的允許evaluator實現(xiàn)可以訪問更多的信息，例如DISTINCT限定符，通配符FUNCTION(*)。
實現(xiàn)evaluator
- 所有evaluators必須繼承抽象類org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator。子類必須實現(xiàn)它的一些抽象方法，實現(xiàn)UDAF的邏輯。
Mode
- 這個類比較重要，它表示了udaf在mapreduce的各個階段，理解Mode的含義，就可以理解了hive的UDAF的運行流程
- public static enum Mode{
  PARTIAL1，
  PARTIAL2，
  FINAL，
  COMPLETE
  };
- PARTIAL1:這個是mapreduce的map階段:從原始數(shù)據(jù)到部分數(shù)據(jù)聚合，將會調(diào)用iterate()和terminatePartial()
- PARTIAL2:這個是mapreduce的map端的Combiner階段，負責在map端合并map的數(shù)據(jù)；從部分數(shù)據(jù)聚合到部分數(shù)據(jù)聚合，將會調(diào)用merge()和terminatePartial()
- FINAL:mapreduce的reduce階段:從部分數(shù)據(jù)的聚合到完全聚合，將會調(diào)用merge()和terminate()
- COMPLETE:如果出現(xiàn)了這個階段，表示mapreduce只有map，沒有reduce，所有map端就直接出結(jié)果了；從原始數(shù)據(jù)直接到完全聚合，將會調(diào)用iterate()和terminate()
永久函數(shù)
- 如果希望在hive 中自定義一個函數(shù)，且能永久使用，則修改源碼添加相應的函數(shù)類，然后在修改ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java類，添加相應的注冊函數(shù)代碼。registerUDF("parse_url",UDFParseUrl.class.false);
- 寫一個hql文件，hive -i 'file'
- 新建hiverc文件
  - jar包放到安裝目錄下或者指定目錄下
  - $HOME/.hiverc
  - 把初始化語句加載到文件中

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Hive函數(shù)

Hive函數(shù)

Hive函數(shù)

函數(shù)分類

內(nèi)置函數(shù)

正則表達式

自定義函數(shù)

UDF

UDAF

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Hive函數(shù)

Hive函數(shù)

函數(shù)分類

內(nèi)置函數(shù)

正則表達式

自定義函數(shù)

UDF

UDAF

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av