聊聊數(shù)據(jù)挖掘

為什么要進(jìn)行數(shù)據(jù)挖掘?

我們正生活在一個(gè)大數(shù)據(jù)時(shí)代,海量的商業(yè)、社會(huì)、工程、醫(yī)療、科學(xué)以及互聯(lián)網(wǎng)數(shù)據(jù)正在不斷的產(chǎn)生。大數(shù)據(jù)中蘊(yùn)含了豐富的知識(shí),可以幫助我們更好的進(jìn)行商業(yè)決策、科學(xué)研究、醫(yī)療決策等等。但是,這些知識(shí)通常不是顯而易見的,需要采用一定的方法從大數(shù)據(jù)中進(jìn)行獲取。數(shù)據(jù)挖掘就承擔(dān)了這樣的作用,負(fù)責(zé)從海量數(shù)據(jù)中發(fā)掘有價(jià)值的金礦。所以說(shuō),數(shù)據(jù)挖掘是大數(shù)據(jù)分析中最重要的技術(shù)之一。

數(shù)據(jù)挖掘是什么?

簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的過(guò)程,這里的知識(shí)可以是有價(jià)值的信息或者模式。整個(gè)知識(shí)發(fā)現(xiàn)的過(guò)程可以總結(jié)為以下步驟:

  1. 數(shù)據(jù)清理:消除噪聲并刪除不一致數(shù)據(jù)
  2. 數(shù)據(jù)集成:多種數(shù)據(jù)源的數(shù)據(jù)組合在一起,通常會(huì)統(tǒng)一儲(chǔ)存在數(shù)據(jù)倉(cāng)庫(kù)中
  3. 數(shù)據(jù)選擇和變換:根據(jù)任務(wù)選擇合適的數(shù)據(jù),并變換為適合數(shù)據(jù)挖掘的形式
  4. 數(shù)據(jù)挖掘:發(fā)現(xiàn)數(shù)據(jù)中的信息和模式
  5. 模式評(píng)估:根據(jù)某種度量指標(biāo),篩選有價(jià)值的模式
  6. 知識(shí)表示:將挖掘到的知識(shí)以易于理解的形式向用戶展示,如可視化

概括來(lái)說(shuō),一個(gè)完整的數(shù)據(jù)挖掘過(guò)程包括如下步驟:首先,集成不同數(shù)據(jù)源的數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理,得到易于數(shù)據(jù)挖掘的數(shù)據(jù);其次,運(yùn)用數(shù)據(jù)挖掘技術(shù)得到數(shù)據(jù)中的信息和模式,這些技術(shù)包括關(guān)聯(lián)規(guī)則分析、分類、聚類、時(shí)序分析等;再次,評(píng)估挖掘得到的模式,找出其中感興趣的、有價(jià)值的知識(shí);最后,運(yùn)用可視化等技術(shù)表示知識(shí)。

數(shù)據(jù)挖掘中的技術(shù)

數(shù)據(jù)挖掘是一個(gè)學(xué)科交叉的技術(shù),它廣泛吸取了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)、分布式計(jì)算/云計(jì)算、模式識(shí)別、信息檢索、可視化等領(lǐng)域的大量技術(shù)。

數(shù)據(jù)挖掘的應(yīng)用

數(shù)據(jù)挖掘的應(yīng)用非常廣泛,包括金融、保險(xiǎn)、電信、互聯(lián)網(wǎng)等領(lǐng)域都有它的身影,而且覆蓋面不斷的擴(kuò)大。典型的應(yīng)用包括:網(wǎng)頁(yè)點(diǎn)擊分析、金融用戶信用評(píng)估、電信流量分析、設(shè)備故障分析和預(yù)測(cè)等等。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容