
為什么要進(jìn)行數(shù)據(jù)挖掘?
我們正生活在一個(gè)大數(shù)據(jù)時(shí)代,海量的商業(yè)、社會(huì)、工程、醫(yī)療、科學(xué)以及互聯(lián)網(wǎng)數(shù)據(jù)正在不斷的產(chǎn)生。大數(shù)據(jù)中蘊(yùn)含了豐富的知識(shí),可以幫助我們更好的進(jìn)行商業(yè)決策、科學(xué)研究、醫(yī)療決策等等。但是,這些知識(shí)通常不是顯而易見的,需要采用一定的方法從大數(shù)據(jù)中進(jìn)行獲取。數(shù)據(jù)挖掘就承擔(dān)了這樣的作用,負(fù)責(zé)從海量數(shù)據(jù)中發(fā)掘有價(jià)值的金礦。所以說(shuō),數(shù)據(jù)挖掘是大數(shù)據(jù)分析中最重要的技術(shù)之一。
數(shù)據(jù)挖掘是什么?
簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的過(guò)程,這里的知識(shí)可以是有價(jià)值的信息或者模式。整個(gè)知識(shí)發(fā)現(xiàn)的過(guò)程可以總結(jié)為以下步驟:
- 數(shù)據(jù)清理:消除噪聲并刪除不一致數(shù)據(jù)
- 數(shù)據(jù)集成:多種數(shù)據(jù)源的數(shù)據(jù)組合在一起,通常會(huì)統(tǒng)一儲(chǔ)存在數(shù)據(jù)倉(cāng)庫(kù)中
- 數(shù)據(jù)選擇和變換:根據(jù)任務(wù)選擇合適的數(shù)據(jù),并變換為適合數(shù)據(jù)挖掘的形式
- 數(shù)據(jù)挖掘:發(fā)現(xiàn)數(shù)據(jù)中的信息和模式
- 模式評(píng)估:根據(jù)某種度量指標(biāo),篩選有價(jià)值的模式
- 知識(shí)表示:將挖掘到的知識(shí)以易于理解的形式向用戶展示,如可視化
概括來(lái)說(shuō),一個(gè)完整的數(shù)據(jù)挖掘過(guò)程包括如下步驟:首先,集成不同數(shù)據(jù)源的數(shù)據(jù),并進(jìn)行數(shù)據(jù)預(yù)處理,得到易于數(shù)據(jù)挖掘的數(shù)據(jù);其次,運(yùn)用數(shù)據(jù)挖掘技術(shù)得到數(shù)據(jù)中的信息和模式,這些技術(shù)包括關(guān)聯(lián)規(guī)則分析、分類、聚類、時(shí)序分析等;再次,評(píng)估挖掘得到的模式,找出其中感興趣的、有價(jià)值的知識(shí);最后,運(yùn)用可視化等技術(shù)表示知識(shí)。
數(shù)據(jù)挖掘中的技術(shù)
數(shù)據(jù)挖掘是一個(gè)學(xué)科交叉的技術(shù),它廣泛吸取了統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)技術(shù)、分布式計(jì)算/云計(jì)算、模式識(shí)別、信息檢索、可視化等領(lǐng)域的大量技術(shù)。
數(shù)據(jù)挖掘的應(yīng)用
數(shù)據(jù)挖掘的應(yīng)用非常廣泛,包括金融、保險(xiǎn)、電信、互聯(lián)網(wǎng)等領(lǐng)域都有它的身影,而且覆蓋面不斷的擴(kuò)大。典型的應(yīng)用包括:網(wǎng)頁(yè)點(diǎn)擊分析、金融用戶信用評(píng)估、電信流量分析、設(shè)備故障分析和預(yù)測(cè)等等。