數(shù)據(jù)挖掘涉及的方面很廣,可以是從數(shù)據(jù)中挖掘知識,提取知識,數(shù)據(jù)/模式分析,數(shù)據(jù)考古和數(shù)據(jù)捕撈。
數(shù)據(jù)挖掘是從已有數(shù)據(jù)中去提取所需的知識,很多人把數(shù)據(jù)挖掘視為數(shù)據(jù)中的知識發(fā)現(xiàn)的同義詞,另一些人把數(shù)據(jù)挖掘視為知識發(fā)現(xiàn)的基本步驟,具體步驟如下:(1)數(shù)據(jù)清理(消除噪聲和不一致數(shù)據(jù))
(2)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起)
(3)數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù))
(4)數(shù)據(jù)變換(通過匯總或聚集操作,把數(shù)據(jù)變換和統(tǒng)一成便于挖掘的形式)
(5)數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式)
(6)模式評估(根據(jù)某種興趣度度量,識別代表知識的真正有趣的模式)
(7)知識表示(使用可視化和知識表示技術(shù),向用戶提供挖掘的知識)

圖片發(fā)自簡書App
以上的觀點(diǎn)把數(shù)據(jù)挖掘當(dāng)做是知識發(fā)現(xiàn)的一個步驟,不過,在業(yè)界內(nèi),通常把數(shù)據(jù)挖掘表示整個知識發(fā)現(xiàn)的過程。故數(shù)據(jù)挖掘是大量數(shù)據(jù)中挖掘有趣模式和知識的過程。數(shù)據(jù)源包括數(shù)據(jù)庫,數(shù)據(jù)倉庫,Web等等。
摘抄自《數(shù)據(jù)挖掘:概念與技術(shù)》