spearman秩相關(guān)系數(shù) pearson線性相關(guān)系數(shù)要求連續(xù)變量的取值服從正態(tài)分布。不服從正態(tài)分布的變量、分類或等級(jí)變量之間的關(guān)聯(lián)性可采用spearman秩相關(guān)系數(shù)。 只要...
對(duì)于定性變量,常常根據(jù)變量的分類類型來(lái)分組,可以采用餅圖和條形圖來(lái)描述定性變量的分布。 3.2.2對(duì)比分析 (1)絕對(duì)數(shù)比較 (2)相對(duì)數(shù)比較 1)結(jié)構(gòu)相對(duì)數(shù):將同一總體內(nèi)的...
一、數(shù)據(jù)質(zhì)量分析 臟數(shù)據(jù): 缺失值 異常值 不一致的值 重要數(shù)據(jù)含有特殊符號(hào)的數(shù)據(jù) 1.異常值分析 (1)簡(jiǎn)單統(tǒng)計(jì)量分析,最常用的統(tǒng)計(jì)量是最大值和最小值,用來(lái)判斷這個(gè)變量是否...
數(shù)據(jù)應(yīng)用 生意參謀 數(shù)據(jù)產(chǎn)品的本質(zhì)是產(chǎn)品,那么首先要回答用戶是誰(shuí),用戶的痛點(diǎn)是什么,產(chǎn)品要解決用戶的哪些痛點(diǎn),及產(chǎn)品給用戶帶來(lái)的價(jià)值是什么。對(duì)于企業(yè)內(nèi)部數(shù)據(jù)產(chǎn)品,它的用戶是公...
數(shù)據(jù)質(zhì)量 15.1數(shù)據(jù)質(zhì)量保障原則 1.完整性 完整性是指數(shù)據(jù)的記錄和信息是否完整,是否存在缺失的情況。 2.準(zhǔn)確性 準(zhǔn)確性是指數(shù)據(jù)種記錄的信息和數(shù)據(jù)是否準(zhǔn)確,是否存在異常或...
存儲(chǔ)和成本管理 14.1數(shù)據(jù)壓縮 在分布式文件系統(tǒng)中,為了提高數(shù)據(jù)的可用性與性能,通常會(huì)將數(shù)據(jù)存儲(chǔ)3分,這就意味著存儲(chǔ)1TB的邏輯數(shù)據(jù),實(shí)際上會(huì)占用3TB的物理空間。 arc...
優(yōu)化器新特性 優(yōu)化器具有一些新特性,主要是重新排序join和自動(dòng)mapjoin。 (1)重新排序join (2)自動(dòng)mapjoin (3)隱式類型轉(zhuǎn)換 任務(wù)優(yōu)化 join傾斜
數(shù)據(jù)管理 元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù) 元數(shù)據(jù)打通了源數(shù)據(jù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)應(yīng)用,記錄了數(shù)據(jù)從產(chǎn)生到消費(fèi)的全過(guò)程。 元數(shù)據(jù)主要記錄數(shù)據(jù)倉(cāng)庫(kù)中模型的定義,各層級(jí)間的映射關(guān)系、監(jiān)控?cái)?shù)據(jù)倉(cāng)...
退化維度 在大數(shù)據(jù)的事實(shí)表模型設(shè)計(jì)中,更多的是考慮提高下游用戶的使用效率,降低數(shù)據(jù)獲取的復(fù)雜性,減少關(guān)聯(lián)的表數(shù)量。 特點(diǎn) 1.數(shù)據(jù)不斷更新 2.多業(yè)務(wù)過(guò)程日期 特殊處理 1....
父子事實(shí)的處理方式 事實(shí)的設(shè)計(jì)準(zhǔn)則 1.事實(shí)完整性 2.事實(shí)一致性 3.事實(shí)可加性 周期快照事實(shí)表 在確定的間隔內(nèi)對(duì)實(shí)體的度量進(jìn)行抽樣,這樣可以很容易地研究實(shí)體的度量值,而不...
多事務(wù)事實(shí)表 多事務(wù)事實(shí)表,將不同的事實(shí)放到同一個(gè)事實(shí)表中,即同一個(gè)事實(shí)表包含不同的業(yè)務(wù)過(guò)程。 多事務(wù)事實(shí)表在設(shè)計(jì)時(shí)有兩種方法進(jìn)行事實(shí)的處理:1.不同業(yè)務(wù)過(guò)程的事實(shí)使用不同的...
任務(wù)描述 kaggle 案例 california-housing-priceshttps://www.kaggle.com/camnugent/california-hou...
事實(shí)表設(shè)計(jì)方法 維度模型設(shè)計(jì)采用四步設(shè)計(jì)方法:選擇業(yè)務(wù)過(guò)程、聲明粒度、確定事實(shí)。 第一步:選擇業(yè)務(wù)過(guò)程及確定事實(shí)表類型 第二步:聲明粒度 第三步:確定維度 第四步:確定事實(shí) ...
事實(shí)表有三種類型:事務(wù)事實(shí)表、周期快照事實(shí)表和累積快照事實(shí)表。 事務(wù)事實(shí)表用來(lái)描述業(yè)務(wù)過(guò)程,跟蹤空間或時(shí)間上某點(diǎn)的度量事件,保存的是最原子的數(shù)據(jù),也稱為“原子事實(shí)表”。周期快...
極限存儲(chǔ) 1.透明化 底層的數(shù)據(jù)還是歷史拉鏈存儲(chǔ),但是上層做一個(gè)視圖操作或者在HIVE里做一個(gè)hook,通過(guò)分析語(yǔ)句的語(yǔ)法樹,把對(duì)極限存儲(chǔ)前的表的查詢轉(zhuǎn)換成對(duì)極限存儲(chǔ)表的查詢...
一、模型設(shè)計(jì)基本原則 1.高內(nèi)聚和低耦合 將業(yè)務(wù)相近或者相關(guān)、粒度相同的數(shù)據(jù)設(shè)計(jì)為一個(gè)邏輯或者物理模型;將高概率同時(shí)訪問(wèn)的數(shù)據(jù)放在一起,將低概率同時(shí)訪問(wèn)的數(shù)據(jù)分開存儲(chǔ)。 2....
大數(shù)據(jù)領(lǐng)域建模綜述 性能:良好的數(shù)據(jù)模型能幫助我們快速查詢所需要的數(shù)據(jù),減少數(shù)據(jù)I/O吞吐。 成本:良好的數(shù)據(jù)模型能極大的減少不必要的數(shù)據(jù)冗余,也能實(shí)現(xiàn)計(jì)算結(jié)果復(fù)用,極大地降...
數(shù)據(jù)挖掘 挖掘數(shù)據(jù)中臺(tái)分層: FDM層:用于存儲(chǔ)在模型訓(xùn)練前常用的特征指標(biāo),并進(jìn)行統(tǒng)一的清洗和去噪處理,提升機(jī)器學(xué)習(xí)特征工程環(huán)節(jié)的效率。 IDM層:個(gè)體挖掘指標(biāo)中間層,面向個(gè)...