一、Shuffle描述 Shuffle的正常意思是洗牌或弄亂,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它會隨機地打亂參數(shù)...
一、Shuffle描述 Shuffle的正常意思是洗牌或弄亂,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它會隨機地打亂參數(shù)...
Shuffle過程是MapReduce的核心,描述著數(shù)據(jù)從map task輸出到reduce task輸入的這段過程。 Hadoop的集群環(huán)境,大部分的map task和re...
1. 避免使用子查詢 由于子查詢會產(chǎn)生大量的臨時表也沒有索引,所以會消耗過多的CPU和IO資源,產(chǎn)生大量的慢查詢 【子查詢性能差的原因】 2. in 查詢的避免(我經(jīng)理,所...
3、Pandas 數(shù)據(jù)結(jié)構(gòu) - DataFrame DataFrame 是一個表格型的數(shù)據(jù)結(jié)構(gòu),它含有一組有序的列,每列可以是不同的值類型(數(shù)值、字符串、布爾型值)。Data...
今天剛創(chuàng)建了一個表,為訂單號創(chuàng)建了唯一索引。在測試同學測試的過程中,看了一下數(shù)據(jù),竟然有重復訂單號?怎么想都想不明白,問了另一個大牛,他告訴我: 因為分庫分表了。唯一鍵只能保...
一、背景 在使用Hive的數(shù)據(jù)開發(fā)工作中,為了處理復雜的業(yè)務(wù)需求,經(jīng)常要用到行轉(zhuǎn)列或列轉(zhuǎn)行的操作。為了節(jié)省以后處理這類工作的時間,提高工作效率,現(xiàn)將Hive行列互轉(zhuǎn)的操作方法...
一、RDD是什么? RDD是一個彈性可復原的分布式數(shù)據(jù)集!RDD是一個邏輯概念,一個RDD中有多個分區(qū),一個分區(qū)在Executor節(jié)點上執(zhí)行時,他就是一個迭代器。 一個RDD...
時間語義 上圖是數(shù)據(jù)流式處理過程,涉及到兩個重要的時間點:事件時間(Event Time)和處理時間(Processing Time)。 事件時間(Event Time):即...