Hadoop2.0 | Tez緒

TezApache開源的支持DAG作業(yè)的計算框架
直接源于MapReduce框架,核心思想是將MapReduce兩個操作進一步拆分
Map被拆分成Input、ProcessorSort、MergeOutput
Reduce被拆分成InputShuffleSort、MergeProcessorOutput

Tez數(shù)據(jù)處理引擎

Tez數(shù)據(jù)處理引擎實現(xiàn)了一些常見的組件
Tez數(shù)據(jù)處理引擎的基礎(chǔ)是Sort(排序)和Shuffle(混洗)

Tez提供了多種Input、Output、TaskSort的實現(xiàn)
Input實現(xiàn):LocalMergedInput(多個文件本地合并后作為輸入)、ShuffledMergedInput(遠程拷貝數(shù)據(jù)且合并后作為輸入)
Output實現(xiàn):InMemorySortedOutput(內(nèi)存排序后輸出)、LocalOnFileSorterOutput(本地磁盤排序后輸出)、OnFileSortedOutput(磁盤排序后輸出)
Task實現(xiàn):RunTimeTask
Sort實現(xiàn):DefaultSorter(本地數(shù)據(jù)排序)、InMemoryShuffleSorter(遠程拷貝數(shù)據(jù)并排序)

Tez ApplicationMaster

Tez ApplicationMaster直接源于MapReduceApplicationMaster,重用了大部分機制和代碼

功能
數(shù)據(jù)切分和作業(yè)分解
任務(wù)調(diào)度
ResourceManager進行通信,為DAG作業(yè)申請資源
NodeManager進行通信,啟動DAG作業(yè)中的任務(wù)
監(jiān)控DAG作業(yè)的運行過程,確保它快速運行結(jié)束

每個DAGAppMaster負責(zé)管理一個DAG作業(yè)
DAGAppMaster優(yōu)先為那些不依賴任何頂點的任務(wù)申請資源
DAG中的一個頂點由一定數(shù)目的任務(wù)組成
一旦一個頂點中所有任務(wù)運行完成,則認為該頂點運行結(jié)束

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容