Hive函數(shù)

Hive函數(shù)

函數(shù)分類

  • cli命令
    • 顯示當前對話有多少函數(shù)可用 show functions;
    • 顯示函數(shù)的表述信息 desc function concat;
    • 顯示函數(shù)的擴展描述信息 desc function extended concat;
  • 簡單函數(shù)
  • 特殊函數(shù)
    • 窗口函數(shù)
      • 應用場景
        • 用于分區(qū)排序
        • 動態(tài)Group by
        • Top N
        • 累計計算
        • 層次查詢
      • Windowing function
        • lead
        • lag
        • FIRST_VALUE
        • LAST_VALUE
    • 分析函數(shù)
      • THE OVER clause
        • COUNT
        • SUM
        • MIN
        • MAX
        • AVG
      • Analytics functions
        • RANK
        • ROW_NUIMBER
        • DENSE_RANK
        • CUME_DIST
        • PERCENT_RANK
        • NTILE
    • 混合函數(shù)
      • java_method(class,method[,arg1[,arg2...]])
      • reflect(class,method[,arg1[,arg2...]])
      • hash(a1[,a2])
    • UDTF
      • 表函數(shù)
        • lateralView:LATERAL VIEW udtf(expression) tableAlias AS columnAlias(',',columnAlias)* fromClause:FROM baseTable(lateralView)*
      • 例子
        • explode函數(shù) :行展開為列

內(nèi)置函數(shù)

正則表達式

  • 使用正則表達式的函數(shù)
  • A LIKE B,字符"_"表示任意單個字符,而字符"%"表示任意數(shù)量的字符
  • A RLIKE B
    • select 1 from dual where 'footbar' rlike ^f.*r$;
  • regexp_replace(string A,string B,string C)
    • select regexp_replace('footbar','oo|ar','') from dual;(return 'fb')
  • regexp_extract(string subject,string pattern,int index)
    • select regexp_extract('foothebar','foo(.*?)(bar)',1) from winfunc;

自定義函數(shù)

UDF

  • UDF-用戶自定義函數(shù)(user defined function)
    • 針對單條記錄
  • 創(chuàng)建函數(shù)
    • 自定義一個java類
    • 繼承UDF類
    • 重寫evaluate方法
    • 打jar包
    • hive執(zhí)行add jar
      • add jar /home/jar/function.jar
    • hive執(zhí)行創(chuàng)建模板函數(shù)
      • create temporary function bigthan as 'com.udf.udftest';
    • hql中使用

UDAF

  • UDAF用戶自定義聚合函數(shù)
    • user defined aggregation function
    • 針對記錄集合
  • 開發(fā)通用UDAF有兩個步驟
    • 第一個是編寫resolver類,resolver負責類型檢查,操作符重載。
    • 第二個是編寫evaluator類,evaluator真正實現(xiàn)UDAF的邏輯
  • 通常來說,頂層UDAF類繼承org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2,里面編寫嵌套類evaluator實現(xiàn)UDAF的邏輯
  • 實現(xiàn)resolver
    • resolver通常繼承org.apache.hadoop.hive.ql.udf.GenericUDAFResolver2,但是更建議繼承AbstractGenericUDAFResolver,隔離將來hive接口的變化。GenericUDResolver和GenericUDResolver2接口的區(qū)別是,后面的允許evaluator實現(xiàn)可以訪問更多的信息,例如DISTINCT限定符,通配符FUNCTION(*)。
  • 實現(xiàn)evaluator
    • 所有evaluators必須繼承抽象類org.apache.hadoop.hive.ql.udf.generic.GenericUDAFEvaluator。子類必須實現(xiàn)它的一些抽象方法,實現(xiàn)UDAF的邏輯。
  • Mode
    • 這個類比較重要,它表示了udaf在mapreduce的各個階段,理解Mode的含義,就可以理解了hive的UDAF的運行流程
    • public static enum Mode{
      PARTIAL1,
      PARTIAL2,
      FINAL,
      COMPLETE
      };
    • PARTIAL1:這個是mapreduce的map階段:從原始數(shù)據(jù)到部分數(shù)據(jù)聚合,將會調(diào)用iterate()和terminatePartial()
    • PARTIAL2:這個是mapreduce的map端的Combiner階段,負責在map端合并map的數(shù)據(jù);從部分數(shù)據(jù)聚合到部分數(shù)據(jù)聚合,將會調(diào)用merge()和terminatePartial()
    • FINAL:mapreduce的reduce階段:從部分數(shù)據(jù)的聚合到完全聚合,將會調(diào)用merge()和terminate()
    • COMPLETE:如果出現(xiàn)了這個階段,表示mapreduce只有map,沒有reduce,所有map端就直接出結(jié)果了;從原始數(shù)據(jù)直接到完全聚合,將會調(diào)用iterate()和terminate()
  • 永久函數(shù)
    • 如果希望在hive 中自定義一個函數(shù),且能永久使用,則修改源碼添加相應的函數(shù)類,然后在修改ql/src/java/org/apache/hadoop/hive/ql/exec/FunctionRegistry.java類,添加相應的注冊函數(shù)代碼。registerUDF("parse_url",UDFParseUrl.class.false);
    • 寫一個hql文件,hive -i 'file'
    • 新建hiverc文件
      • jar包放到安裝目錄下或者指定目錄下
      • $HOME/.hiverc
      • 把初始化語句加載到文件中
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容