總結(jié)自《Python 數(shù)據(jù)分析與數(shù)據(jù)挖掘》第1章
從數(shù)據(jù)中“淘金”,從大量數(shù)據(jù)(包括文本)中挖掘出隱含的、未知的、對決策有潛在價值的關(guān)系、模式和趨勢,并用這些知識和規(guī)則建立用于決策支持的模型,提供預(yù)測性決策支持的方法、工具和過程,就是數(shù)據(jù)挖掘;它是利用各種分析工具在大量數(shù)據(jù)中尋找其規(guī)律和發(fā)現(xiàn)模型與數(shù)據(jù)之間關(guān)系的過程,是統(tǒng)計學(xué)、數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的綜合。
這種分析方法可避免“人治”的隨意性,避免企業(yè)管理僅依賴個人領(lǐng)導(dǎo)力的風(fēng)險和不確定性,實現(xiàn)精細(xì)化營銷與經(jīng)營管理。
1.3 數(shù)據(jù)挖掘的基本任務(wù)
利用分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則、時序模式、偏差檢測、智能推薦等方法,幫助企業(yè)提取數(shù)據(jù)中蘊含的商業(yè)價值,提高企業(yè)的競爭力。
1.4 數(shù)據(jù)挖掘建模過程
1.4.1 定義挖掘目標(biāo)
1.4.2 數(shù)據(jù)取樣
在明確了需要進(jìn)行數(shù)據(jù)挖掘的目標(biāo)后,接下來就需要從業(yè)務(wù)系統(tǒng)中抽取出一個與挖掘目標(biāo)相關(guān)的樣本數(shù)據(jù)子集。
抽取數(shù)據(jù)的標(biāo)準(zhǔn),一是相關(guān)性,二是可靠性,三是有效性,而不是動用全部企業(yè)數(shù)據(jù)。
衡量取樣數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)如下:
1)資料完整無缺,各類指標(biāo)項齊全
2)數(shù)據(jù)準(zhǔn)確無誤,反映的都是正常(而不是異常)狀態(tài)下的水平
對數(shù)據(jù)進(jìn)行抽樣的常見方式:
*隨機抽樣:在采用隨機抽樣方式時,數(shù)據(jù)集中的每一組觀測值都有相同的被抽樣的概率
*等距抽樣:如按5%的比例對一個有100組觀測值的數(shù)據(jù)集進(jìn)行等距抽樣,則有100/5=20,共5組觀測值
*分層抽樣:首先將樣本總體分層若干層次(或者說分成若干個子集)。在每個層次中的觀測值都具有相同的被選用的概率,但對不同的層次可設(shè)定不同的概率。這樣的抽樣結(jié)果通常具有更好的代表性,進(jìn)而使模型具有更好的擬合精度。
*從起始順序抽樣:從輸入數(shù)據(jù)集的起始處開始抽樣。抽樣的數(shù)量可以給定一個百分比,或直接給定選取觀測值的組數(shù)。
*分類抽樣:前幾種抽樣方式中,并不考慮抽取樣本的具體取值。分類抽樣則依據(jù)某種屬性的取值倆選擇數(shù)據(jù)子集。分類抽樣的選取方式是前面所述的幾種方式,只是抽樣以類為單位。
1.4.3 數(shù)據(jù)探索
對所抽取的樣本數(shù)據(jù)進(jìn)行探索、審核和必要的加工處理,是保證最終的挖掘模型的質(zhì)量所必需的。
挖掘模型的質(zhì)量不會超過抽取樣本的質(zhì)量。
數(shù)據(jù)探索和預(yù)處理的目的是為了保證樣本數(shù)據(jù)的質(zhì)量,從而為保證模型質(zhì)量打下基礎(chǔ)
1.4.4 數(shù)據(jù)預(yù)處理
由于采樣數(shù)據(jù)中常常包含許多含有噪聲、不完整,甚至不一致的數(shù)據(jù),對數(shù)據(jù)挖掘所涉及的數(shù)據(jù)對象必須進(jìn)行預(yù)處理。
1.4.5 挖掘建模(核心環(huán)節(jié))
樣本抽取完成并經(jīng)預(yù)處理后,需要考慮:本次建模屬于數(shù)據(jù)挖掘應(yīng)用中的哪類問題(分類、聚類、關(guān)聯(lián)規(guī)則、時序模式或者智能推薦),選用哪種算法進(jìn)行模型構(gòu)建?
1.4.6 模型評價
在建模過程中得出一系列的分析結(jié)果,模型評價的目的之一就是從這些模型中自動找出一個最好的模型,另外就是要根據(jù)業(yè)務(wù)對模型進(jìn)行解釋和應(yīng)用。
1.5 常用的建模工具
(1)SAS Enterprise Miner
Enterprise Miner(EM)是SAS推出的一個集成的數(shù)據(jù)挖掘系統(tǒng),允許使用和比較不同的技術(shù),同時還集成了復(fù)雜的數(shù)據(jù)庫管理軟件。
(2)IBM SPSS Modeler
它封裝了最先進(jìn)的統(tǒng)計學(xué)和數(shù)據(jù)挖掘技術(shù)來獲得預(yù)測知識,并將相應(yīng)的決策方案部署到現(xiàn)有的業(yè)務(wù)系統(tǒng)和業(yè)務(wù)過程中,從而提高企業(yè)的效益。
(3)SQL Server
SQL Server中集成了數(shù)據(jù)挖掘組件--Analysis Servers,借助SQL Server的數(shù)據(jù)庫管理功能,可以無縫集成在SQL Server數(shù)據(jù)庫中。在SQL Server2008中提供了決策樹算法、聚類分析算法、Naive Bayes算法、關(guān)聯(lián)規(guī)則算法、時序算法、神經(jīng)網(wǎng)絡(luò)算法、線性回歸算法等9種常用的數(shù)據(jù)挖掘算法。但是預(yù)測建模的實現(xiàn)是基于SQL Server平臺的,平臺移植性較差。
(4)Python
Pytho 具備強大的科學(xué)及工程計算能力,不但具有以矩陣計算為基礎(chǔ)的強大數(shù)學(xué)計算能力和分析功能,而且還具有豐富的可視化圖形表現(xiàn)功能和方便的程序設(shè)計能力。
(5)WEKA
WEKA(Waikato Environment for Knowledge Analysis)是一款知名度較高的開源機器學(xué)習(xí)和數(shù)據(jù)挖掘軟件。
(6)KNIME
KNIME(Konstanz InformantionMiner) 是基于Java開發(fā)的,可以擴展使用Weka中的挖掘算法。
(7)RapidMiner
RapidMiner也稱為YALE(Yet Another Learning Environment,https://rapidminer.com),提供圖形化界面。
(8)TipDM
TipDM(頂尖數(shù)據(jù)挖掘平臺)使用Java語言開發(fā),能從各種數(shù)據(jù)源獲取數(shù)據(jù),建立多種數(shù)據(jù)挖掘模型。