Hadoop學(xué)習(xí)筆記(1)


title: Hadoop學(xué)習(xí)筆記(1)
date: 2016-08-23 20:57:36
categories:

  • 大數(shù)據(jù)分析
    tags:
  • Hadoop
  • 大數(shù)據(jù)分析

數(shù)據(jù)挖掘基礎(chǔ)

數(shù)據(jù)挖掘基本任務(wù)

數(shù)據(jù)挖掘的基本任務(wù)就是利用

  • 分類與預(yù)測(cè)
  • 聚類分析
  • 關(guān)聯(lián)規(guī)則
  • 時(shí)序模式
  • 偏差檢測(cè)
  • 智能推薦

等方法挖掘出數(shù)據(jù)中的價(jià)值。

數(shù)據(jù)挖掘建模過(guò)程

定義挖掘目標(biāo)

想要充分發(fā)揮數(shù)據(jù)挖掘的價(jià)值,就要對(duì)目標(biāo)進(jìn)行必要的分析,明白到底想要干什么。

數(shù)據(jù)取樣

定下了目標(biāo)之后,接下來(lái)需要從業(yè)務(wù)系統(tǒng)中抽取出一個(gè)與挖掘目標(biāo)相關(guān)的樣本數(shù)據(jù)子集。

抽取子集的標(biāo)準(zhǔn),主要有

  • 相關(guān)性
  • 可靠性
  • 有效性

衡量數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)主要由:

  • 資料是否完整
  • 數(shù)據(jù)是否準(zhǔn)確(應(yīng)當(dāng)反應(yīng)正常情況而不是異常情況)

為了保證數(shù)據(jù)的準(zhǔn)確,應(yīng)當(dāng)選擇合適的抽樣方式,常見(jiàn)的抽樣方式有:隨機(jī)抽樣,等距抽樣,分層抽樣,從起始順序抽樣,分類抽樣。

數(shù)據(jù)探索

當(dāng)我們拿到一個(gè)樣本數(shù)據(jù)集后,它是否滿足我們的需求;數(shù)據(jù)中有沒(méi)有什么規(guī)律和趨勢(shì);有沒(méi)有出現(xiàn)過(guò)從未設(shè)想過(guò)的數(shù)據(jù)狀態(tài);屬性之前有什么相關(guān)性;他們可以區(qū)分成怎樣一些類別等等,這都是需要探索的內(nèi)容。

常用的數(shù)據(jù)探索主要包括兩方面:

數(shù)據(jù)質(zhì)量分析

主要任務(wù)是檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù)。

缺失值分析

數(shù)據(jù)的缺失主要包括記錄的缺失和記錄中某個(gè)字段信息的缺失。兩種都會(huì)造成分析結(jié)果的不準(zhǔn)確。對(duì)這些值進(jìn)行一定的處理是非常有必要的。

異常值分析

異常值分析是檢查數(shù)據(jù)中是否含有不合理的部分。

數(shù)據(jù)一致性分析

數(shù)據(jù)一致是指數(shù)據(jù)不存在矛盾和不相容,這些錯(cuò)誤會(huì)影響程序的運(yùn)行。

數(shù)據(jù)特征分析

分布分析

分布分析能夠揭示數(shù)據(jù)的分布特征和分布類型。

對(duì)比分析

對(duì)比分析是指將兩個(gè)相互關(guān)聯(lián)的指標(biāo)進(jìn)行比較。

統(tǒng)計(jì)量分析

用統(tǒng)計(jì)指標(biāo)對(duì)定量數(shù)據(jù)進(jìn)行統(tǒng)計(jì)描述,常從集中趨勢(shì)和離中趨勢(shì)兩個(gè)方面進(jìn)行分析。

周期性分析

探索某個(gè)變量是否隨著時(shí)間變化而呈現(xiàn)出某種周期性變化趨勢(shì)。

貢獻(xiàn)度分析

貢獻(xiàn)度分析又稱為帕累托分析,它的原理是帕累托法則(20/80定律),同樣的投入放在不同的地方會(huì)產(chǎn)生不同的收益。
個(gè)人認(rèn)為,貢獻(xiàn)度分析是 數(shù)據(jù)分析中很重要的一部分,體現(xiàn)了數(shù)據(jù)分析的巨大價(jià)值。

相關(guān)性分析

分析連續(xù)變量之間線性相關(guān)程度的強(qiáng)弱,并用適當(dāng)?shù)慕y(tǒng)計(jì)指標(biāo)表示出來(lái)。

數(shù)據(jù)預(yù)處理

常用的數(shù)據(jù)預(yù)處理方法主要有

數(shù)據(jù)清洗
  • 缺失值處理
  • 異常值處理
數(shù)據(jù)集成

將多個(gè)數(shù)據(jù)源合并放入一個(gè)數(shù)據(jù)源中。

數(shù)據(jù)變換
  • 簡(jiǎn)單函數(shù)變換
  • 規(guī)范化
  • 連續(xù)屬性離散化
  • 屬性構(gòu)造
  • 小波變換
數(shù)據(jù)規(guī)約
  • 屬性規(guī)約
  • 數(shù)值規(guī)約

挖掘建模

模型評(píng)價(jià)

此篇博客的內(nèi)容大多都是偏向于理論分析,接下來(lái)會(huì)記錄各個(gè)部分的具體操作和使用。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容