spearman秩相關系數(shù) pearson線性相關系數(shù)要求連續(xù)變量的取值服從正態(tài)分布。不服從正態(tài)分布的變量、分類或等級變量之間的關聯(lián)性可采用sp...
對于定性變量,常常根據(jù)變量的分類類型來分組,可以采用餅圖和條形圖來描述定性變量的分布。 3.2.2對比分析 (1)絕對數(shù)比較 (2)相對數(shù)比較 ...
一、數(shù)據(jù)質量分析 臟數(shù)據(jù): 缺失值 異常值 不一致的值 重要數(shù)據(jù)含有特殊符號的數(shù)據(jù) 1.異常值分析 (1)簡單統(tǒng)計量分析,最常用的統(tǒng)計量是最大值...
數(shù)據(jù)應用 生意參謀 數(shù)據(jù)產(chǎn)品的本質是產(chǎn)品,那么首先要回答用戶是誰,用戶的痛點是什么,產(chǎn)品要解決用戶的哪些痛點,及產(chǎn)品給用戶帶來的價值是什么。對于...
數(shù)據(jù)質量 15.1數(shù)據(jù)質量保障原則 1.完整性 完整性是指數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況。 2.準確性 準確性是指數(shù)據(jù)種記錄的信息...
存儲和成本管理 14.1數(shù)據(jù)壓縮 在分布式文件系統(tǒng)中,為了提高數(shù)據(jù)的可用性與性能,通常會將數(shù)據(jù)存儲3分,這就意味著存儲1TB的邏輯數(shù)據(jù),實際上會...
優(yōu)化器新特性 優(yōu)化器具有一些新特性,主要是重新排序join和自動mapjoin。 (1)重新排序join (2)自動mapjoin (3)隱式類...
數(shù)據(jù)管理 元數(shù)據(jù)是關于數(shù)據(jù)的數(shù)據(jù) 元數(shù)據(jù)打通了源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應用,記錄了數(shù)據(jù)從產(chǎn)生到消費的全過程。 元數(shù)據(jù)主要記錄數(shù)據(jù)倉庫中模型的定義,...
退化維度 在大數(shù)據(jù)的事實表模型設計中,更多的是考慮提高下游用戶的使用效率,降低數(shù)據(jù)獲取的復雜性,減少關聯(lián)的表數(shù)量。 特點 1.數(shù)據(jù)不斷更新 2....