一、Shuffle描述 Shuffle的正常意思是洗牌或弄亂,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它會(huì)隨機(jī)地打亂參數(shù)...
一、Shuffle描述 Shuffle的正常意思是洗牌或弄亂,可能大家更熟悉的是Java API里的Collections.shuffle(List)方法,它會(huì)隨機(jī)地打亂參數(shù)...
Shuffle過程是MapReduce的核心,描述著數(shù)據(jù)從map task輸出到reduce task輸入的這段過程。 Hadoop的集群環(huán)境,大部分的map task和re...
1. 避免使用子查詢 由于子查詢會(huì)產(chǎn)生大量的臨時(shí)表也沒有索引,所以會(huì)消耗過多的CPU和IO資源,產(chǎn)生大量的慢查詢 【子查詢性能差的原因】 2. in 查詢的避免(我經(jīng)理,所...
3、Pandas 數(shù)據(jù)結(jié)構(gòu) - DataFrame DataFrame 是一個(gè)表格型的數(shù)據(jù)結(jié)構(gòu),它含有一組有序的列,每列可以是不同的值類型(數(shù)值、字符串、布爾型值)。Data...
今天剛創(chuàng)建了一個(gè)表,為訂單號創(chuàng)建了唯一索引。在測試同學(xué)測試的過程中,看了一下數(shù)據(jù),竟然有重復(fù)訂單號?怎么想都想不明白,問了另一個(gè)大牛,他告訴我: 因?yàn)榉謳旆直砹恕Nㄒ绘I只能保...
一、背景 在使用Hive的數(shù)據(jù)開發(fā)工作中,為了處理復(fù)雜的業(yè)務(wù)需求,經(jīng)常要用到行轉(zhuǎn)列或列轉(zhuǎn)行的操作。為了節(jié)省以后處理這類工作的時(shí)間,提高工作效率,現(xiàn)將Hive行列互轉(zhuǎn)的操作方法...
一. Apache Atlas簡介 1.1 簡介 在當(dāng)今大數(shù)據(jù)的應(yīng)用越來越廣泛的情況下,數(shù)據(jù)治理一直是企業(yè)面臨的巨大問題。 大部分公司只是單純的對數(shù)據(jù)進(jìn)行了處理,而數(shù)據(jù)的血緣...
一、RDD是什么? RDD是一個(gè)彈性可復(fù)原的分布式數(shù)據(jù)集!RDD是一個(gè)邏輯概念,一個(gè)RDD中有多個(gè)分區(qū),一個(gè)分區(qū)在Executor節(jié)點(diǎn)上執(zhí)行時(shí),他就是一個(gè)迭代器。 一個(gè)RDD...
時(shí)間語義 上圖是數(shù)據(jù)流式處理過程,涉及到兩個(gè)重要的時(shí)間點(diǎn):事件時(shí)間(Event Time)和處理時(shí)間(Processing Time)。 事件時(shí)間(Event Time):即...
split邏輯切分: 這里的分片不是物理分片,輸入分片存儲(chǔ)的并非數(shù)據(jù)本身,而是一個(gè)分片長度和一個(gè)記錄數(shù)據(jù)的位置的數(shù)據(jù) 例如10MB文件,切分10各1MB小文件,0-1MB位置...
Hadoop 2.x引入了一種新的執(zhí)行機(jī)制。這種新機(jī)制(MR 2)建立在一個(gè)名為YARN的系統(tǒng)上。而用于執(zhí)行的框架通過 “mapreduce.framework.name” ...
數(shù)據(jù)倉庫VS數(shù)據(jù)庫 數(shù)據(jù)倉庫的定義: 數(shù)據(jù)倉庫是將多個(gè)數(shù)據(jù)源的數(shù)據(jù)經(jīng)過ETL(Extract(抽?。ransform(轉(zhuǎn)換)、Load(加載))理之后,按照一定的主題集成...
文章轉(zhuǎn)載自:https://www.hollischuang.com/archives/666 2000年7月,加州大學(xué)伯克利分校的Eric Brewer教授在ACM POD...
1、rowkey設(shè)計(jì)有哪三原則? ①長度原則:rowkey是二進(jìn)制碼流。10-100個(gè)字節(jié)。 ②散列原則:rowkey是按照字典序存儲(chǔ)的。利用該規(guī)則,將數(shù)據(jù)均衡的分到不同...
字符串(K-V) 字符串(K-V)是我們在Redis中使用最多的一個(gè)類型,其中V的值不能超過512M,甚至很多人用Redis只用這個(gè)類型。如果只是單純的使用K-V其實(shí)是并沒有...
spark安裝教程http://dblab.xmu.edu.cn/blog/install-hadoop/,問題解決https://www.cnblogs.com/woofw...
數(shù)據(jù)倉庫三范式簡要概括一下是什么意思 數(shù)據(jù)倉庫三范式是一種規(guī)范,用于指導(dǎo)數(shù)據(jù)倉庫設(shè)計(jì)的優(yōu)化。它包括以下三個(gè)范式: 第一范式(1NF):確保每個(gè)數(shù)據(jù)表都有一個(gè)主鍵,并且每個(gè)字段...
維度表是數(shù)據(jù)倉庫中的一種重要表,用于存儲(chǔ)描述性信息,如產(chǎn)品、地理位置、時(shí)間等。維度表的維護(hù)和更新是數(shù)據(jù)倉庫中的一個(gè)關(guān)鍵任務(wù),確保了數(shù)據(jù)的準(zhǔn)確性和完整性。下面是一些常見的維度表...
面試官有可能這么問:1.Flink中對窗口的支持包括哪幾種?說說他們的使用場景 flink支持兩種劃分窗口的方式(time和count) 如果根據(jù)時(shí)間劃分窗口,那么它就是一個(gè)...