為什么要有Oozie?
在數(shù)據(jù)業(yè)務(wù)場景,對于數(shù)據(jù)的處理往往是分階段處理,而不同的階段可能采用了不同的技術(shù)框架去完成這個業(yè)務(wù)需求,且可能在不同的階段要干不同的事。
炒飯(鍋) à 吃飯(碗) à 筷子(動手)
要吃飯就要等炒飯先用鍋炒好,要用筷子動手吃飯就要等碗里裝了飯,這是一個流水線式的過程,如果用設(shè)定時間的方式,到了什么時候就拿完去裝飯,但如果今天兼職的人特別多,那么炒的飯必然就多了,時間也長了,但是設(shè)定時間到了,還沒炒好,可是有一堆人擠在廚房喊要飯,問題就出現(xiàn)了。
于是有的人會想,如果有一個監(jiān)督人幫我去這個監(jiān)控、通知、控制好整個流程,那樣多好啊,廚房就不會給天天催了,也不會發(fā)生擁擠的情況。
????? 小結(jié):一個完整的數(shù)據(jù)分析系統(tǒng)通常是由大量的任務(wù)單元組成,Shell腳本、Java程序、MapReduce程序、Hive腳本等等,各個任務(wù)單元之間存在時間先后及前后依賴關(guān)系。
????? 為了很好的組織這樣的復(fù)雜執(zhí)行計劃,需要一個工作流調(diào)度系統(tǒng)來調(diào)用執(zhí)行。
????? 簡單的工作流調(diào)度:Liunx的crontab來定義
????? 復(fù)雜的工作流調(diào)度:Oozie、Azakaban等。。。
主流幾款工作流調(diào)度框架
特性HamakeOozieAzkabanCascading
工作流描述語言XMLXML (xPDL based)text file with key/value? pairsJava API
依賴機制data-drivenexplicitexplicitexplicit
是否要web容器NoYesYesNo
進度跟蹤console/log messagesweb pageweb pageJava API
Hadoop job調(diào)度支持noyesyesyes
運行模式command line utilitydaemondaemonAPI
Pig支持yesyesyesyes
事件通知nononoyes
需要安裝noyesyesno
支持的hadoop版本0.18+0.20+currently unknown0.18+
重試支持noworkflownode? evelyesyes
運行任意命令yesyesyesyes
Amazon EMR支持yesnocurrently unknownyes
什么是Oozie?
????? Oozie(馴象人)是一個基于工作流引擎的開源框架,由Cloudera公司貢獻給Apache的,用在一個工作流內(nèi)以一個特定順序運行一組工作或流程。
????? Oozie在集群中扮演的是定時調(diào)度任務(wù),多任務(wù),并開源按照業(yè)務(wù)邏輯順序調(diào)度。
組成
Workflow:順序執(zhí)行流程節(jié)點,執(zhí)行分支多節(jié)點或合并多分點為一個分支。
Coordinator:定時觸發(fā)Workflow
BundleJob:綁定多個Coordinator
Oozie節(jié)點
????? 控制流節(jié)點(Control Flow Nodes):一般都是定義在工作流開始或結(jié)束,比如start、end、kill等,以及提供工作流的執(zhí)行路徑。
????? 動作節(jié)點(Action Nodes):執(zhí)行具體動作的節(jié)點。
案例
job.properties
#NameNode地址
nameNode=hdfs://hadoop-senior00-levi.com:8082
#ResourceManager地址,默認端口8032
jobTracker=hadoop-senior00-levi.com:8032
#內(nèi)部的Event隊列名稱
queueName=default
examplesRoot=oozie-apps
#程序位置
oozie.wf.application.path=${nameNode}/user/${user.name}/${examplesRoot}/shell
#執(zhí)行這個腳本
EXEC1=test1.sh
EXEC2=test2.sh
workflow.xml
???
???
???????????????
???????????????????????${jobTracker}
???????????????????????${nameNode}
???????????????????????
???????????????????????????????
???????????????????????????????????????mapred.job.queue.name
???????????????????????????????????????${queueName}
??????????????????????? ${EXEC1}
???????????????????????/user/admin/oozie-apps/shell/${EXEC1}#${EXEC1}
???????????????????????
???????????????
???????????????
??????????? ?
???????????????
???????????????????????${jobTracker}
???????????????????????${nameNode}
???????????????????????
???????????????????????????????
???????????????????????????????????????mapred.job.queue.name
???????????????????????????????????????${queueName}
??????????????????????? ${EXEC2}
???????????????????????/user/admin/oozie-apps/shell/${EXEC2}#${EXEC2}
???????????????????????
???????????????
???????????????
???
???????
???????????
???????????????${wf:actionData('shell-node')['my_output'] eq 'Hello Oozie'}
???????????
???
???????Shell action failed, errormessage[${wf:errorMessage(wf:lastErrorNode())}]
???
???????Incorrect output, expected [Hello Oozie] but was[${wf:actionData('shell-node')['my_output']}]
???
test1.sh
#!/bin/bash
/usr/bin/date > /tmp/test.log
/usr/bin/date > /tmp/test.log
執(zhí)行:
上傳到HDFS:
hdfs dfs -rmr /user/levi/oozie-apps
hdfs dfs -put oozie-apps/ /user/levi

執(zhí)行任務(wù):
bin/oozie job --ooziehttp://hadoop-senior00-levi.com:11000/oozie -config oozie-apps/shell/job.properties-run
使用注意事項
[if !supportLists]1.????[endif]啟動不了,則到oozie-server/temp查看是否有*.pid文件,有就刪除后在啟動。
[if !supportLists]2.????[endif]如果無法關(guān)閉oozie則kill掉。
[if !supportLists]3.????[endif]Mysql配置如果沒有生效的話,默認使用derby數(shù)據(jù)庫
[if !supportLists]4.????[endif]在本地修改完成的job配置,必須重新上傳到HDFS。
[if !supportLists]5.????[endif]Linux用戶名和Hadoop的用戶名不一致。
[if !supportLists]6.????[endif]時區(qū)