spearman秩相關(guān)系數(shù) pearson線性相關(guān)系數(shù)要求連續(xù)變量的取值服從正態(tài)分布。不服從正態(tài)分布的變量、分類或等級(jí)變量之間的關(guān)聯(lián)性可采用sp...
對(duì)于定性變量,常常根據(jù)變量的分類類型來分組,可以采用餅圖和條形圖來描述定性變量的分布。 3.2.2對(duì)比分析 (1)絕對(duì)數(shù)比較 (2)相對(duì)數(shù)比較 ...
一、數(shù)據(jù)質(zhì)量分析 臟數(shù)據(jù): 缺失值 異常值 不一致的值 重要數(shù)據(jù)含有特殊符號(hào)的數(shù)據(jù) 1.異常值分析 (1)簡單統(tǒng)計(jì)量分析,最常用的統(tǒng)計(jì)量是最大值...
數(shù)據(jù)應(yīng)用 生意參謀 數(shù)據(jù)產(chǎn)品的本質(zhì)是產(chǎn)品,那么首先要回答用戶是誰,用戶的痛點(diǎn)是什么,產(chǎn)品要解決用戶的哪些痛點(diǎn),及產(chǎn)品給用戶帶來的價(jià)值是什么。對(duì)于...
數(shù)據(jù)質(zhì)量 15.1數(shù)據(jù)質(zhì)量保障原則 1.完整性 完整性是指數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況。 2.準(zhǔn)確性 準(zhǔn)確性是指數(shù)據(jù)種記錄的信息...
存儲(chǔ)和成本管理 14.1數(shù)據(jù)壓縮 在分布式文件系統(tǒng)中,為了提高數(shù)據(jù)的可用性與性能,通常會(huì)將數(shù)據(jù)存儲(chǔ)3分,這就意味著存儲(chǔ)1TB的邏輯數(shù)據(jù),實(shí)際上會(huì)...
優(yōu)化器新特性 優(yōu)化器具有一些新特性,主要是重新排序join和自動(dòng)mapjoin。 (1)重新排序join (2)自動(dòng)mapjoin (3)隱式類...
數(shù)據(jù)管理 元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù) 元數(shù)據(jù)打通了源數(shù)據(jù)、數(shù)據(jù)倉庫、數(shù)據(jù)應(yīng)用,記錄了數(shù)據(jù)從產(chǎn)生到消費(fèi)的全過程。 元數(shù)據(jù)主要記錄數(shù)據(jù)倉庫中模型的定義,...
退化維度 在大數(shù)據(jù)的事實(shí)表模型設(shè)計(jì)中,更多的是考慮提高下游用戶的使用效率,降低數(shù)據(jù)獲取的復(fù)雜性,減少關(guān)聯(lián)的表數(shù)量。 特點(diǎn) 1.數(shù)據(jù)不斷更新 2....