簡介 Spark SQL是Spark用來處理結(jié)構(gòu)化數(shù)據(jù)的一個(gè)模塊,它提供了一個(gè)編程抽象叫做DataFrame(底層也是RDD)并且作為分布式SQ...
RDD解決的問題:1.中間結(jié)果保存在內(nèi)存中,并且重用2.提供了通用的抽象的分布式的數(shù)據(jù)模型3.提供了多種數(shù)據(jù)操作模式(支持函數(shù)式編程):如map...
介紹:Spark是用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎 spark的引入:雖然MapReduce提供了對(duì)數(shù)據(jù)訪問和計(jì)算的抽象,但是對(duì)于數(shù)據(jù)的復(fù)用就是...
1.Hive的概述 √ 意義:在于大幅度降低工程師學(xué)習(xí)MapReduce的學(xué)習(xí)成本,讓好用(計(jì)算速度快)的MapReduce更方便的使用(使用簡...
kafka版本說明 0.8版本有Receiver和Direct模式 0.10以后只保留了direct模式 receiver接收方式 Receiv...
1.client 向 ResourceManager提交應(yīng)用程序,其中包括啟動(dòng)該應(yīng)用的 ApplicationMaster 的必須信息,例如 A...
map端的shuffle: 每個(gè)maptask的數(shù)據(jù)會(huì)進(jìn)入環(huán)形緩沖區(qū)中,(默認(rèn)100M,溢出比是80%),數(shù)據(jù)在寫入時(shí),會(huì)進(jìn)行分區(qū),往數(shù)據(jù)中添加...
Map階段2個(gè)步驟 第一步:設(shè)置inputFormat類,將我們的數(shù)據(jù)切分成key,value對(duì),輸入到第二步 第二步:自定義map邏輯,處理我...
1、client發(fā)起文件上傳請(qǐng)求,通過RPC與NameNode建立通訊,NameNode檢查目標(biāo)文件是否已存在,父目錄是否存在,返回是否可以上傳...