天堂网日韩性色一区,国产少妇久久久,九九麻豆视频

Hive如何處理大量小文件

小文件是如何產(chǎn)生的

1.動態(tài)分區(qū)插入數(shù)據(jù)的時候，會產(chǎn)生大量的小文件，從而導(dǎo)致map數(shù)量的暴增
2.數(shù)據(jù)源本身就包含有大量的小文件
3.reduce個數(shù)越多，生成的小文件也越多

小文件的危害

1 從HIVE角度來看的話呢，小文件越多，map的個數(shù)也會越多，每一個map都會開啟一個JVM虛擬機(jī)，每個虛擬機(jī)都要創(chuàng)建任務(wù)，執(zhí)行任務(wù)，這些流程都會造成大量的資源浪費(fèi)，嚴(yán)重影響性能
2 在HDFS中，每個小文件約占150byte，如果小文件過多則會占用大量的內(nèi)存。這樣namenode內(nèi)存容量嚴(yán)重制約了集群的發(fā)展

小文件的解決方案

從小文件的產(chǎn)生途徑解決：

1.使用orc作為表存儲形式，不要使用textfile，在一定程度上可以減少小文件

2.減少reduce的個數(shù)（減少生成分區(qū)數(shù)量）

3.少用動態(tài)分區(qū)，使用distribute by分區(qū)

4.對已經(jīng)存在的小文件做出的解決方案：

4.1 使用Hadoop achieve把小文件進(jìn)行歸檔
4.2 重建表，建表時減少reduce的數(shù)量
4.3 通過參數(shù)調(diào)節(jié)，設(shè)置map/reduce的數(shù)量
4.3.1設(shè)置map輸入合并小文件的相關(guān)參數(shù)：

//每個Map最大輸入大小(這個值決定了合并后文件的數(shù)量)
set mapred.max.split.size=256000000;  
//一個節(jié)點(diǎn)上split的至少的大小(這個值決定了多個DataNode上的文件是否需要合并)
set mapred.min.split.size.per.node=100000000;
//一個交換機(jī)下split的至少的大小(這個值決定了多個交換機(jī)上的文件是否需要合并)  
set mapred.min.split.size.per.rack=100000000;
//執(zhí)行Map前進(jìn)行小文件合并
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

4.3.2 設(shè)置map輸出和reduce輸出進(jìn)行合并的相關(guān)參數(shù)：

set hive.merge.mapfiles = true
//設(shè)置reduce端輸出進(jìn)行合并，默認(rèn)為false
set hive.merge.mapredfiles = true
//設(shè)置合并文件的大小
set hive.merge.size.per.task = 256*1000*1000
//當(dāng)輸出文件的平均大小小于該值時，啟動一個獨(dú)立的MapReduce任務(wù)進(jìn)行文件merge。
set hive.merge.smallfiles.avgsize=16000000

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Hive如何處理大量小文件

Hive如何處理大量小文件

Hive如何處理大量小文件

小文件是如何產(chǎn)生的

小文件的危害

小文件的解決方案

從小文件的產(chǎn)生途徑解決：

1.使用orc作為表存儲形式，不要使用textfile，在一定程度上可以減少小文件

2.減少reduce的個數(shù)（減少生成分區(qū)數(shù)量）

3.少用動態(tài)分區(qū)，使用distribute by分區(qū)

4.對已經(jīng)存在的小文件做出的解決方案：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Hive如何處理大量小文件

Hive如何處理大量小文件

小文件是如何產(chǎn)生的

小文件的危害

小文件的解決方案

從小文件的產(chǎn)生途徑解決：

1.使用orc作為表存儲形式，不要使用textfile，在一定程度上可以減少小文件

2.減少reduce的個數(shù)（減少生成分區(qū)數(shù)量）

3.少用動態(tài)分區(qū)，使用distribute by分區(qū)

4.對已經(jīng)存在的小文件做出的解決方案：

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

1.使用orc作為表存儲形式，不要使用textfile，在一定程度上可以減少小文件