存儲和成本管理
14.1數(shù)據(jù)壓縮
在分布式文件系統(tǒng)中,為了提高數(shù)據(jù)的可用性與性能,通常會將數(shù)據(jù)存儲3分,這就意味著存儲1TB的邏輯數(shù)據(jù),實際上會占用3TB的物理空間。
archive壓縮算法
14.2
數(shù)據(jù)重分布
14.4生命周期管理
1.周期性刪除策略
2.徹底刪除策略
3.永久保留策略
4.極限存儲策略
5.冷數(shù)據(jù)管理策略
冷數(shù)據(jù)管理是永久保留策略的擴展。永久保留的數(shù)據(jù)需要遷移到冷數(shù)據(jù)中心進行永久保存,同時將MaxCompute中對應的數(shù)據(jù)刪除。一般將重要且不可恢復的、占用存儲空間大于100TB,且訪問頻次較低的數(shù)據(jù)進行冷備,例如3年以上的日志數(shù)據(jù)。
6.增量表merge全量表策略
14.4.2
通用的生命周期管理矩陣
1.歷史數(shù)據(jù)等級劃分
P0:非常重要的主題域數(shù)據(jù)和非常重要的應用數(shù)據(jù),具有不可恢復性,如交易、日志、集團KPI數(shù)據(jù)、IPO關(guān)聯(lián)表。
P1:重要的業(yè)務數(shù)據(jù)和重要的應用數(shù)據(jù),具有不可恢復性,如重要的業(yè)務產(chǎn)品數(shù)據(jù)。
P2:重要的業(yè)務數(shù)據(jù)和重要的應用數(shù)據(jù),具有可恢復性,如重要的業(yè)務產(chǎn)品數(shù)據(jù)。
P3:不重要的業(yè)務數(shù)據(jù)和不重要的應用數(shù)據(jù),具有可恢復性,如某些SNS產(chǎn)品報表。
2.表類型劃分
(1)事件型流水表(增量表)
事件型流水表(增量表)指數(shù)據(jù)無重復或者無主鍵數(shù)據(jù),如日志。
(2)事件型鏡像表(增量表)
事件型鏡像表(增量表)指業(yè)務過程性數(shù)據(jù),有主鍵,但是對于同樣主鍵的屬性會發(fā)生緩慢變化,如交易、訂單狀態(tài)與時間會根據(jù)業(yè)務發(fā)生變更。
(3)維表
(4)merge全量表
(5)ETL臨時表
(6)TT臨時數(shù)據(jù)
(7)普通全量表
14.5數(shù)據(jù)成本計量
將一個數(shù)據(jù)表的成本分為存儲成本和計算成本。存儲成本是為了計量數(shù)據(jù)表消耗的存儲資源,計算成本是為了計量數(shù)據(jù)計算過程中的CPU消耗。