97色综合网,久久高清精品,好吊色免费视频直播

Hadoop 平臺運行至今，前期處于放任自由的狀態(tài)，后期才開始稍加管控，指定相關(guān)數(shù)據(jù)使用規(guī)范。日積月累，數(shù)據(jù)規(guī)模越來越大，元數(shù)據(jù)暴增，Namenode rpc 頻繁超時告警，Namenode HA 切換也較為頻繁。

企業(yè)的預算不可能無限增加，所以一個良好的平臺規(guī)范以及定時數(shù)據(jù)清理機制，對平臺的來說至關(guān)重要，屬于非常實在的降本增效工作。

這里記錄下我們組的近期制定的 HDFS「瘦身計劃」。

1. HDFS「瘦身計劃」

通過腳本代碼，分析導出以下四類數(shù)據(jù)，按目錄導出成文件
聯(lián)系各個業(yè)務，依據(jù)我們提供的數(shù)據(jù)，進行清理工作
- 目錄不存在和空表：項目里面有空表和表對應的 hdfs 路徑不存在的情況，需要刪除
- N個月零增長：項目里面有 N 個月沒有數(shù)據(jù)變化的表，需要按需刪除
- 未壓縮的表：項目里面有數(shù)據(jù)存在未壓縮的情況，需要壓縮節(jié)省資源
- 小文件：項目里面包含了大量小文件，需要做小文件合并**

2. 操作手冊

目錄不存在和空表：確認后，直接刪除 hive 表或表 hdfs 目錄
三個月零增長：刪除表，如需保留需備注原因
未壓縮：主要針對非 orc 格式的表，進行：壓縮 + 小文件合并，參考章節(jié)：2.2 和 2.3
小文件：對于非 orc 格式的表，進行：壓縮 + 小文件合并, 參考章節(jié)：2.2 和 2.3
對于 orc 格式的表 進行: 小文件合并，參考章節(jié)：2.1

備注：小文件合并可以采用非動態(tài)分區(qū)和動態(tài)分區(qū)兩種方式進行 overwrite 數(shù)據(jù)。當數(shù)據(jù)量過大（1億條以上）時，建議采用非動態(tài)分區(qū)方式。

2.1 ORC 表小文件處理

（一）orc 非動態(tài)分區(qū)方式
1、直接覆蓋原分區(qū)數(shù)據(jù)，參考：

insert overwrite
  table ods.tmp_owl_newuser_prize_h_ly partition(hourid='2019120101') select
    province_id,
    province_name,
    event_type,
    activity_code,
    activity_name,
    main_site,
    num 
  from
    ods.tmp_owl_newuser_prize_h_ly 
  where
    hourid='2019120101';

（二）orc 動態(tài)分區(qū)方式

代碼參考：

#先設置參數(shù)，開啟動態(tài)分區(qū)
#將查詢數(shù)據(jù)插入新的表中
hive -e "
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.optimize.sort.dynamic.partition=true;
insert overwrite table $tableName partition($partitionName) select * from $tableName where $partitionName='$partitionValue' distribute by rand();"

參考腳本代碼：

#!/bin/bash
######################################################################################################################
#title：小文件合并
#note:orc格式小文件合并，該腳本是在原表基礎上操作，用戶可以根據(jù)實際場景選擇創(chuàng)建新表或者基于原表進行小文件合并。
######################################################################################################################
set -x
set -e
dbName=$1
tableName=$2
partitionName=$3
partitionValue=$4
 
hive -e "
set hive.exec.dynamic.partition.mode=nonstrict;
set hive.optimize.sort.dynamic.partition=true;
use $dbName;
insert overwrite table $tableName partition($partitionName) select * from $tableName where $partitionName='$partitionValue' distribute by rand();
"

2.2. Textfile 表小文件處理

（一）textfile 非動態(tài)分區(qū)方式
操作步驟：
1）壓縮

set hive.exec.compress.output=false;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set mapred.output.compression.type=BLOCK;
set hive.merge.size.per.task=256000000;
set hive.merge.smallfiles.avgsize=256000000;
set mapreduce.input.fileinputformat.split.maxsize=256000000;
set mapreduce.input.fileinputformat.split.minsize.per.node=256000000;
set mapreduce.input.fileinputformat.split.minsize.per.rack=256000000;

hive -e "
use $dbName;
insert overwrite table $tableName partition ($partitionName) select * from $tableName where $partitionName='$partitionValue';"

2）合并

hive -e "
set hive.exec.compress.output=true;
use $dbName;
insert overwrite table $tableName partition ($partitionName) select * from $tableName where $partitionName='$partitionValue';"

（二）textfile 動態(tài)分區(qū)方式
操作步驟：
1）壓縮（對當前分區(qū)進行數(shù)據(jù)壓縮操作）

set hive.exec.dynamic.partition.mode=nonstrict;
set hive.optimize.sort.dynamic.partition=true;
 
set hive.exec.compress.output=false;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set mapred.output.compression.type=BLOCK;
set hive.merge.size.per.task=2560000000;
set hive.merge.smallfiles.avgsize=2560000000; 
set mapreduce.input.fileinputformat.split.maxsize=2560000000;
set mapreduce.input.fileinputformat.split.minsize.per.node=2560000000;
set mapreduce.input.fileinputformat.split.minsize.per.rack=2560000000;
hive -e " 
use $dbName;
insert overwrite table $tableName partition ($partitionName) select * from $tableName where $partitionName='$partitionValue';"

2）合并（先開啟動態(tài)分區(qū)，將查詢結(jié)果覆蓋當前分區(qū)數(shù)據(jù)）

set hive.exec.dynamic.partition.mode=nonstrict;
set hive.optimize.sort.dynamic.partition=true;
set hive.exec.compress.output=true;
use $dbName;
insert overwrite table $tableName partition ($partitionName) select * from $tableName where $partitionName='$partitionValue' distribute by rand();

處理結(jié)果：
參考腳本如下

#!/bin/bash
####################################################
#title：小文件合并
#note:orc格式小文件合并,此腳本基于原表操作模式。
####################################################
 
set -e
#表所在的庫名
dbName=`echo "$1" | awk -F '.' '{ print $1 }'`
#表名
tableName=`echo "$1" | awk -F '.' '{ print $2 }'`
 
 
#導出表分區(qū)信息
hive -e "show partitions ${dbName}.${tableName};" > ${tableName}.txt
#獲取分區(qū)信息
partitionName=`cat ${tableName}.txt | sed -n '$p' | awk -F "/" '{for(x=1 ; x<=NF ; x++) print $x}' | awk -F "=" '{print $1F}' | sed '{N;s/\n/,/}'`
 
 
tablePartitions=(`cat ${tableName}.txt`)
#判斷表的分區(qū)總數(shù)
tablePartitionsNum=${#tablePartitions[@]}
 
hive -e "use $dbName;show create table $tableName;" > $tableName.sql
path="/$(grep -A1 LOCATION $tableName.sql | tail -n1 | awk -F "'" '{print $2}' | cut -d"/" -f4-)"
echo "路徑: $path"
 
 
 
for(( i = 0; i < $tablePartitionsNum; i++ )); do
{
        #獲取單個分區(qū)（K=V）
        partitionValue=`echo ${tablePartitions[i]} | sed 's/\//,and where /'`
        #進行數(shù)據(jù)壓縮
 
        echo " insert overwrite table $tableName partition ($partitionName) select * from $tableName where $partitionValue;"
 
        pathInfo1=`hdfs dfs -count -q -h $path/${tablePartitions[i]}`
        hive -e "
        set hive.exec.dynamic.partition.mode=nonstrict;
        set hive.optimize.sort.dynamic.partition=true;
        set hive.exec.compress.output=false;
 
        set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
        set mapred.output.compression.type=BLOCK;
        set hive.merge.size.per.task=256000000;
        set hive.merge.smallfiles.avgsize=256000000;
        set mapreduce.input.fileinputformat.split.maxsize=256000000;
        set mapreduce.input.fileinputformat.split.minsize.per.node=256000000;
        set mapreduce.input.fileinputformat.split.minsize.per.rack=256000000;
 
        use $dbName;
 
        insert overwrite table $tableName partition ($partitionName) select * from $tableName where $partitionValue;
        "
 
        echo " insert overwrite table $tableName partition ($partitionName) select * from $tableName where $partitionValue distribute by rand();"
        #進行小文件合并
        hive -e "
        set hive.exec.compress.output=true;
        set hive.exec.dynamic.partition.mode=nonstrict;
        set hive.optimize.sort.dynamic.partition=true;
        use $dbName;
 
        insert overwrite table $tableName partition ($partitionName) select * from $tableName where $partitionValue distribute by rand();
        "
 
        echo "壓縮后文件信息"
        hdfs dfs -count -q -v -h $path/${tablePartitions[i]}
        echo "壓縮前文件信息"
        echo $pathInfo1
}
done

2.3 parquet 表小文件處理

壓縮與合并，參考：

hive -e "
set parquet.compression=gzip;
set hive.merge.size.per.task=5120000000; 
set hive.merge.smallfiles.avgsize=5120000000;  
set mapreduce.input.fileinputformat.split.maxsize=5120000000; 
set mapreduce.input.fileinputformat.split.minsize.per.node=5120000000; 
set mapreduce.input.fileinputformat.split.minsize.per.rack=5120000000;
insert overwrite table $tableName partition(dayid=${dayid}) select 
字段
from $tableName where dayid=${dayid};"

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

如何給 HDFS 「減肥」之數(shù)據(jù)清理

如何給 HDFS 「減肥」之數(shù)據(jù)清理

1. HDFS「瘦身計劃」

2. 操作手冊

2.1 ORC 表小文件處理

2.2. Textfile 表小文件處理

2.3 parquet 表小文件處理

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

如何給 HDFS 「減肥」之數(shù)據(jù)清理

1. HDFS「瘦身計劃」

2. 操作手冊

2.1 ORC 表小文件處理

2.2. Textfile 表小文件處理

2.3 parquet 表小文件處理

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av