1.數(shù)據(jù)傾斜 什么是數(shù)據(jù)傾斜 在單個節(jié)點任務所處理的數(shù)據(jù)量遠大于同類型任務所處理的數(shù)據(jù)量,導致該節(jié)點成為整個作業(yè)的瓶頸,這是分布式系統(tǒng)不可能避免的問題。從本質(zhì)上說,導致數(shù)據(jù)傾...
1.數(shù)據(jù)傾斜 什么是數(shù)據(jù)傾斜 在單個節(jié)點任務所處理的數(shù)據(jù)量遠大于同類型任務所處理的數(shù)據(jù)量,導致該節(jié)點成為整個作業(yè)的瓶頸,這是分布式系統(tǒng)不可能避免的問題。從本質(zhì)上說,導致數(shù)據(jù)傾...
簡介: Flink 的整體架構(gòu)如圖 1 所示。Flink 是可以運行在多種不同的環(huán)境中的,例如,它可以通過單進程多線程的方式直接運行,從而提供調(diào)試的能力。它也可以運行在 Ya...
Spark SQL是Spark生態(tài)系統(tǒng)中非常重要的組件,其前身為Shark。Shark是Spark上的數(shù)據(jù)倉庫,最初設計成與Hive兼容,但是該項目于2014年開始停止開發(fā),...
大數(shù)據(jù)時代這個詞被提出已有10年了吧,越來越多的企業(yè)已經(jīng)完成了大數(shù)據(jù)平臺的搭建。隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的爆發(fā),大數(shù)據(jù)價值在越來越多的場景中被挖掘,隨著大家都在使用歐冠大數(shù)據(jù),...
摘要: 在數(shù)據(jù)分析中,我們可能需要使用各種數(shù)據(jù)庫,目前大概有七種常用數(shù)據(jù)庫,包括4種常用的關(guān)系型數(shù)據(jù)庫,3種常用NoSQL數(shù)據(jù)庫(NoSQL = Not Only SQL 泛...
索引 1. 那你能說說什么是索引嗎? 索引其實是一種數(shù)據(jù)結(jié)構(gòu),能夠幫助我們快速的檢索數(shù)據(jù)庫中的數(shù)據(jù) 2. 那么索引具體采用的哪種數(shù)據(jù)結(jié)構(gòu)呢? 常見的MySQL主要有兩種結(jié)構(gòu):...
內(nèi)存不過是計算機分級存儲系統(tǒng)中的靠近cpu的一個存儲介質(zhì)。1.spark運行起來內(nèi)存里都存的啥?2.如何管理里面所存的東西?3.spark用java和scala這樣的jvm語...
本文將介紹Hive調(diào)優(yōu)的整體過程,以及本人對Hive調(diào)優(yōu)過程的一些思考,包括Hive調(diào)優(yōu)的一般步驟,和調(diào)優(yōu)方法。 1,Hive一般優(yōu)化方法 1,查看HiveSQL執(zhí)行計劃 H...