Spark Streaming 概述 ? Spark Streaming用于流式數(shù)據(jù)的處理。Spark Streaming支持的數(shù)據(jù)輸入源很多,例如:Kafka、Flum...
Spark Streaming 概述 ? Spark Streaming用于流式數(shù)據(jù)的處理。Spark Streaming支持的數(shù)據(jù)輸入源很多,例如:Kafka、Flum...
IDEA創(chuàng)建SparkSQL程序 IDEA中程序的打包和運(yùn)行方式都和SparkCore類似,Maven依賴中需要添加新的依賴項(xiàng): 用戶自定義函數(shù) 用戶自定義UDF函數(shù) 首先先...
什么是Spark SQL ? Spark SQL是Spark用來(lái)處理結(jié)構(gòu)化數(shù)據(jù)的一個(gè)模塊,它提供了2個(gè)編程抽象:DataFrame和DataSet,并且作為分布式SQL查...
RDD 什么是RDD ? RDD(Resilient Distributed Dataset)叫做分布式數(shù)據(jù)集,是Spark中最基本的數(shù)據(jù)抽象。代碼中是一個(gè)抽象類,它代表...
什么是Spark Spark是一種基于內(nèi)存的快速的,通用的,可擴(kuò)展的大數(shù)據(jù)分析引擎 Spark內(nèi)存模塊 Spark特點(diǎn) 快:與Hadoop和MapReduce響度,Spark...
Scala 高級(jí)用法 樣例類 ? 樣例類是一種特殊類,它可以用來(lái)快速定義一個(gè)用于保存數(shù)據(jù)的類(類似于Java POJO類),在后續(xù)要學(xué)習(xí)并發(fā)編程和spark、flink這...
類和對(duì)象 scala是支持面向?qū)ο蟮?,也有類和?duì)象的概念。我們依然可以基于scala語(yǔ)言來(lái)開發(fā)面向?qū)ο蟮膽?yīng)用程序。 創(chuàng)建類和對(duì)象 語(yǔ)法 使用class來(lái)定義一個(gè)類 使用new...
函數(shù)式編程 我們將來(lái)使用Spark/Flink的大量業(yè)務(wù)代碼都會(huì)使用到函數(shù)式編程。下面的這些操作是學(xué)習(xí)的重點(diǎn)。 遍歷( foreach ) 映射( map ) 映射扁平化( ...
Array (數(shù)組) scala中數(shù)組的概念是和Java類似,可以用數(shù)組來(lái)存放一組數(shù)據(jù)。scala中,有兩種數(shù)組,一種是定 長(zhǎng)數(shù)組,另一種是變長(zhǎng)數(shù)組 定長(zhǎng)數(shù)組 定長(zhǎng)數(shù)組指的是...
變量 聲明變量 val/var 變量標(biāo)識(shí):變量類型 = 初始值 其中 Val表示的是不可改變的變量 Var表示的是可以重新賦值的變量 Notice: 變量寫在變量名后面,且不...
Hive和Hbase的區(qū)別 Hive: 1. 數(shù)據(jù)倉(cāng)庫(kù) ? Hive的本質(zhì)其實(shí)就相當(dāng)于將HDFS中已經(jīng)存儲(chǔ)的文件在Mysql中做了一個(gè)雙射關(guān)系,以方便使用HQL去管理查詢...
需求,使用MR實(shí)現(xiàn)讀取hbase表數(shù)據(jù),只要某一個(gè)列族的數(shù)據(jù),并且寫入到另一張表中。 Main Mapper Reducer HDFS導(dǎo)入數(shù)據(jù)到Hbase和Hbase導(dǎo)出到H...
JAVA類對(duì)應(yīng)的數(shù)據(jù)模型HBaseConfigurationHBase配置類HBaseAdminHBase管理Admin類TableHBase Table操作類PutHBas...
1. RegionServer 架構(gòu) 1.1 StoreFile 保存實(shí)際數(shù)據(jù)的物理文件,StoreFile以Hfile的形式存儲(chǔ)在HDFS上。每個(gè)Store會(huì)有一個(gè)或多個(gè)S...
使用hbase shell可以進(jìn)入一個(gè)shell命令行界面! 1. 其他操作 1.1 查看集群狀態(tài) 使用status可以查看集群狀態(tài),默認(rèn)為summary,可以選擇‘simp...
注意事項(xiàng):Hbase強(qiáng)依賴于HDFS以及zookeeper,所以安裝Hbase之前一定要保證Hadoop和zookeeper正常啟動(dòng) 1. 下載對(duì)應(yīng)的HBase的安裝包 下載...
1. NoSQL簡(jiǎn)介 1.1 關(guān)系型數(shù)據(jù)庫(kù)的查詢瓶頸 當(dāng)用戶表的數(shù)據(jù)達(dá)到幾千萬(wàn)甚至幾億級(jí)別的時(shí)候,對(duì)單條數(shù)據(jù)的檢索將花費(fèi)數(shù)秒甚至達(dá)到分鐘級(jí)別。實(shí)際情況更復(fù)雜,查詢的操作速度將...
1. Producer API 消息發(fā)送流程 Kafka的Producer發(fā)送消息采用的是異步發(fā)送的方式。在消息發(fā)送的過程中,涉及到了兩個(gè)線程——main線程和Sender線...