title: Hadoop學(xué)習(xí)筆記(1)
date: 2016-08-23 20:57:36
categories:
- 大數(shù)據(jù)分析
tags: - Hadoop
- 大數(shù)據(jù)分析
數(shù)據(jù)挖掘基礎(chǔ)
數(shù)據(jù)挖掘基本任務(wù)
數(shù)據(jù)挖掘的基本任務(wù)就是利用
- 分類與預(yù)測(cè)
- 聚類分析
- 關(guān)聯(lián)規(guī)則
- 時(shí)序模式
- 偏差檢測(cè)
- 智能推薦
等方法挖掘出數(shù)據(jù)中的價(jià)值。
數(shù)據(jù)挖掘建模過(guò)程
定義挖掘目標(biāo)
想要充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值,就要對(duì)目標(biāo)進(jìn)行必要的分析,明白到底想要干什么。
數(shù)據(jù)取樣
定下了目標(biāo)之后,接下來(lái)需要從業(yè)務(wù)系統(tǒng)中抽取出一個(gè)與挖掘目標(biāo)相關(guān)的樣本數(shù)據(jù)子集。
抽取子集的標(biāo)準(zhǔn),主要有
- 相關(guān)性
- 可靠性
- 有效性
衡量數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)主要由:
- 資料是否完整
- 數(shù)據(jù)是否準(zhǔn)確(應(yīng)當(dāng)反應(yīng)正常情況而不是異常情況)
為了保證數(shù)據(jù)的準(zhǔn)確,應(yīng)當(dāng)選擇合適的抽樣方式,常見(jiàn)的抽樣方式有:隨機(jī)抽樣,等距抽樣,分層抽樣,從起始順序抽樣,分類抽樣。
數(shù)據(jù)探索
當(dāng)我們拿到一個(gè)樣本數(shù)據(jù)集后,它是否滿足我們的需求;數(shù)據(jù)中有沒(méi)有什么規(guī)律和趨勢(shì);有沒(méi)有出現(xiàn)過(guò)從未設(shè)想過(guò)的數(shù)據(jù)狀態(tài);屬性之前有什么相關(guān)性;他們可以區(qū)分成怎樣一些類別等等,這都是需要探索的內(nèi)容。
常用的數(shù)據(jù)探索主要包括兩方面:
數(shù)據(jù)質(zhì)量分析
主要任務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù)。
缺失值分析
數(shù)據(jù)的缺失主要包括記錄的缺失和記錄中某個(gè)字段信息的缺失。兩種都會(huì)造成分析結(jié)果的不準(zhǔn)確。對(duì)這些值進(jìn)行一定的處理是非常有必要的。
異常值分析
異常值分析是檢查數(shù)據(jù)中是否含有不合理的部分。
數(shù)據(jù)一致性分析
數(shù)據(jù)一致是指數(shù)據(jù)不存在矛盾和不相容,這些錯(cuò)誤會(huì)影響程序的運(yùn)行。
數(shù)據(jù)特征分析
分布分析
分布分析能夠揭示數(shù)據(jù)的分布特征和分布類型。
對(duì)比分析
對(duì)比分析是指將兩個(gè)相互關(guān)聯(lián)的指標(biāo)進(jìn)行比較。
統(tǒng)計(jì)量分析
用統(tǒng)計(jì)指標(biāo)對(duì)定量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述,常從集中趨勢(shì)和離中趨勢(shì)兩個(gè)方面進(jìn)行分析。
周期性分析
探索某個(gè)變量是否隨著時(shí)間變化而呈現(xiàn)出某種周期性變化趨勢(shì)。
貢獻(xiàn)度分析
貢獻(xiàn)度分析又稱為帕累托分析,它的原理是帕累托法則(20/80定律),同樣的投入放在不同的地方會(huì)產(chǎn)生不同的收益。
個(gè)人認(rèn)為,貢獻(xiàn)度分析是 數(shù)據(jù)分析中很重要的一部分,體現(xiàn)了數(shù)據(jù)分析的巨大價(jià)值。
相關(guān)性分析
分析連續(xù)變量之間線性相關(guān)程度的強(qiáng)弱,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來(lái)。
數(shù)據(jù)預(yù)處理
常用的數(shù)據(jù)預(yù)處理方法主要有
數(shù)據(jù)清洗
- 缺失值處理
- 異常值處理
數(shù)據(jù)集成
將多個(gè)數(shù)據(jù)源合并放入一個(gè)數(shù)據(jù)源中。
數(shù)據(jù)變換
- 簡(jiǎn)單函數(shù)變換
- 規(guī)范化
- 連續(xù)屬性離散化
- 屬性構(gòu)造
- 小波變換
數(shù)據(jù)規(guī)約
- 屬性規(guī)約
- 數(shù)值規(guī)約
挖掘建模
模型評(píng)價(jià)
此篇博客的內(nèi)容大多都是偏向于理論分析,接下來(lái)會(huì)記錄各個(gè)部分的具體操作和使用。