簡介 Spark SQL是Spark用來處理結構化數據的一個模塊,它提供了一個編程抽象叫做DataFrame(底層也是RDD)并且作為分布式SQL查詢引擎的作用。 引入 Hi...
簡介 Spark SQL是Spark用來處理結構化數據的一個模塊,它提供了一個編程抽象叫做DataFrame(底層也是RDD)并且作為分布式SQL查詢引擎的作用。 引入 Hi...
RDD解決的問題:1.中間結果保存在內存中,并且重用2.提供了通用的抽象的分布式的數據模型3.提供了多種數據操作模式(支持函數式編程):如map,ruduce,foreach...
介紹:Spark是用于大規(guī)模數據處理的統(tǒng)一分析引擎 spark的引入:雖然MapReduce提供了對數據訪問和計算的抽象,但是對于數據的復用就是簡單的將中間數據寫到一個穩(wěn)定的...
1.Hive的概述 √ 意義:在于大幅度降低工程師學習MapReduce的學習成本,讓好用(計算速度快)的MapReduce更方便的使用(使用簡單) √ 基本概念:Hive是...
kafka版本說明 0.8版本有Receiver和Direct模式 0.10以后只保留了direct模式 receiver接收方式 Receiver是使用Kafka的高層次C...
1.client 向 ResourceManager提交應用程序,其中包括啟動該應用的 ApplicationMaster 的必須信息,例如 ApplicationMaste...
map端的shuffle: 每個maptask的數據會進入環(huán)形緩沖區(qū)中,(默認100M,溢出比是80%),數據在寫入時,會進行分區(qū),往數據中添加一個分區(qū)屬性,當數據寫入到80...
Map階段2個步驟 第一步:設置inputFormat類,將我們的數據切分成key,value對,輸入到第二步 第二步:自定義map邏輯,處理我們第一步的輸入數據,然后轉換成...
1、client發(fā)起文件上傳請求,通過RPC與NameNode建立通訊,NameNode檢查目標文件是否已存在,父目錄是否存在,返回是否可以上傳; 2、client請求第一個...
作用(用于消息中間件) 1.可以作為緩沖(流量消減)--防止高并發(fā) 2.分布式 3.解耦合 分片機制 簡要介紹: 1.Kafka可以將主題劃分為多個分區(qū)(Partition)...
RDB: 介紹: 一種基于快照機制實現的持久化方案, 會將一個服務器某個時刻的一個狀態(tài)整體保存下來.快照文件非常小,一般只有幾kb左右. 優(yōu)點: 持久化的文件非常小,適合于做...
1. 服務器啟動,運行服務提供者。 2. 服務提供者在啟動時,向注冊中心(zookeeper)注冊自己提供的服務。 3. 服務消費者在啟動時,向注冊中心訂閱自己所需的服務。 ...