Do not go gentle into that good night,Old age should burn and rave at cl...
轉(zhuǎn)載一首我很喜歡的英文詩,丁尼生的《尤利西斯》。 It little profits that an idle king, | 這太無謂——當(dāng)一...
RDD,即Resilient Distributed Dataset,是Spark的核心概念。這篇文章就是講講spark的rdd依賴關(guān)系的,不理...
那天去面試,面試官問我知不知道Impala同步數(shù)據(jù)的方式,我回答invalidate metadata和refresh table [parti...
最近下載了個(gè)CDH的quickstart vm玩玩,發(fā)現(xiàn)個(gè)問題,spark 的Job History Server無法查看已經(jīng)跑過的Spark ...
前面介紹了HIVE的ANALYZE TABLE命令, IMPALA也提供了一個(gè)類似的命令叫COMPUTE STATS。這篇文章就是講講這個(gè)命令。...
上次講過HIVE 的一個(gè)常用命令 MSCK REPAIR TABLE , 這次講講HIVE的ANALYZE TABLE命令,接下來還會(huì)講下Imp...
我們知道存儲(chǔ)在HDFS上的文件一般有多個(gè)副本,默認(rèn)是3個(gè),訪問這個(gè)文件是通過一個(gè)URL來的,但是這個(gè)文件到底存儲(chǔ)在哪個(gè)DataNode節(jié)點(diǎn)的什么...
工作中碰到個(gè)需求,需要我去SFTP服務(wù)器采集HIVE導(dǎo)出的數(shù)據(jù),由于這個(gè)大數(shù)據(jù)平臺(tái)設(shè)計(jì)問題,很多東西沒考慮到,他們的導(dǎo)出方式是用HIVE提供的i...