數(shù)據(jù)湖的基本特征 可以從數(shù)據(jù)和計算兩個層面進(jìn)一步分析數(shù)據(jù)湖應(yīng)該具備哪些特征。在數(shù)據(jù)方面: “保真性”。數(shù)據(jù)湖中對于業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)都會存儲一份“...
一、什么是數(shù)據(jù)湖 數(shù)據(jù)湖是目前比較熱的一個概念,許多企業(yè)都在構(gòu)建或者計劃構(gòu)建自己的數(shù)據(jù)湖。但是在計劃構(gòu)建數(shù)據(jù)湖之前,搞清楚什么是數(shù)據(jù)湖,明確一個...
Apache Flink的Exactly-Once機(jī)制 Apache Flink是目前市場最受關(guān)注的流計算處理引擎,相較于Spark Strea...
什么是Exactly-Once一致性語義 Apache Spark的Exactly-once機(jī)制 Apache Flink的Exactly-on...
DataSet 一、Source算子 1. fromCollection fromCollection:從本地集合讀取數(shù)據(jù) 例: 2. read...
1. RDD復(fù)用 在對RDD進(jìn)行算子時,要避免相同的算子和計算邏輯之下對RDD進(jìn)行重復(fù)的計算: 對上圖中的RDD計算架構(gòu)進(jìn)行修改,得到如下圖所示...
使用explode函數(shù)將hive表中的Map和Array字段數(shù)據(jù)進(jìn)行拆分 lateral view用于和split、explode等UDTF一起...
聚合函數(shù) 注意:聚合操作時要注意null值count(*) 包含null值,統(tǒng)計所有行數(shù)count(id) 不包含null值min 求最小值是不...
單表查詢 注意:1、order by 會對輸入做全局排序,因此只有一個reducer,會導(dǎo)致當(dāng)輸入規(guī)模較大時,需要較長的計算時間。2、sort ...