定期刪除Hive表的過期數(shù)據(jù)

定期刪除Hive表的過期數(shù)據(jù)

由于Hive中有很多表都是每日全量的,數(shù)據(jù)量比較大,有些是可以將過去歷史分區(qū)的數(shù)據(jù)進(jìn)行刪除的,所以需要一個(gè)定時(shí)執(zhí)行的腳本,定時(shí)刪除前七天的過期數(shù)據(jù)。

注:此腳本只針對分區(qū)字段為日期類型

#/bin/bash

today=$(date +%Y-%m-%d)
today_timestamp=$(date -d "$today" +%s)
echo "獲取今天日期:$today,今日日期的時(shí)間戳:$today_timestamp"
detele_day=$(date -d "7 days ago" +%Y-%m-%d)
detele_day_timestamp=$(date -d "$detele_day" +%s)
echo "獲取60天前日期:$detele_day,60天前日期的時(shí)間戳:$detele_day_timestamp"
hdfs_directorys=(
  /apps/hive/warehouse/某個(gè)庫/某個(gè)表/
)

for hdfs_directory in ${hdfs_directorys[@]}; do
  echo "當(dāng)前要?jiǎng)h除的hdfs路徑為:${hdfs_directory}"
  for hdfs_directory_p_day in $(sudo -u hdfs hdfs dfs -ls ${hdfs_directory} | awk 'BEGIN{FS=" "}{print $8}'); do
    p_day=$(echo $hdfs_directory_p_day | awk 'BEGIN{FS="="}{print $2}')
    p_day_timestamp=$(date -d "$p_day" +%s)
    echo "當(dāng)前文件夾分區(qū)日期為:$p_day, 當(dāng)前文件夾分區(qū)日期時(shí)間戳為:$p_day_timestamp"
    if [ $p_day_timestamp -lt $detele_day_timestamp ]; then
      echo "該HDFS的目錄即將被刪除,路徑為:$hdfs_directory_p_day"
      sudo -u hdfs hadoop dfs -rm -r -skipTrash $hdfs_directory_p_day
    else
      echo "該HDFS的目錄處于正常周期內(nèi)不會被刪除,路徑為:$hdfs_directory_p_day"
    fi
  done
done
echo "程序運(yùn)行完成"

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容