經(jīng)過(guò)數(shù)據(jù)探索與數(shù)據(jù)預(yù)處理,我們得到了可以直接建模的數(shù)據(jù)。根據(jù)挖掘目標(biāo)和數(shù)據(jù)形式可以建立分類(lèi)與預(yù)測(cè)、聚類(lèi)分析、關(guān)聯(lián)規(guī)則、時(shí)序模式和偏差檢測(cè)等模型。

分類(lèi)和預(yù)測(cè)是預(yù)測(cè)問(wèn)題的兩種類(lèi)型,分類(lèi)主要是預(yù)測(cè)分類(lèi)標(biāo)號(hào)(離散屬性),而預(yù)測(cè)主要是建立連續(xù)值函數(shù)模型,預(yù)測(cè)給定自變量對(duì)應(yīng)的因變量的值。
回歸分析:
回歸分析是確定預(yù)測(cè)屬性(數(shù)值型)與其他變量間相互依賴的定量關(guān)系最常用的統(tǒng)計(jì)學(xué)方法。包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型。

1.線性回歸:對(duì)一個(gè)或多個(gè)自變量和因變量之間的線性關(guān)系進(jìn)行建模,可用最小二乘法求解模型系數(shù)。
2.非線性回歸:對(duì)一個(gè)或多個(gè)自變量和因變量之間的線性關(guān)系進(jìn)行建模。如果非線性關(guān)系可以通過(guò)簡(jiǎn)單的函數(shù)變換轉(zhuǎn)化成線性關(guān)系,用線性回歸的思想求解;如果不能轉(zhuǎn)化,用非線性最小二乘法求解。
3.Logistic回歸:是廣義線性回歸模型的特例,利用Logistic函數(shù)將因變量的取值范圍控制在0和1之間,表示取值為1的概率。
4.嶺回歸:是一種改進(jìn)最小二乘法估計(jì)的方法。
5.主成分回歸:主成分回歸是根據(jù)主成分分析的思想提出來(lái)的,是對(duì)最小二乘法估計(jì)的一種改進(jìn),它是參數(shù)估計(jì)的一種偏估計(jì)??梢韵宰兞恐g的多重共線性。
決策樹(shù):
決策樹(shù)采用自頂向下的遞歸方式,在內(nèi)部節(jié)點(diǎn)進(jìn)行屬性值的比較,并根據(jù)不同的屬性值從該節(jié)點(diǎn)向下分支,最終得到的葉節(jié)點(diǎn)是學(xué)習(xí)劃分的類(lèi)。
1.ID3算法:其核心是在決策樹(shù)的各級(jí)節(jié)點(diǎn)上,使用信息增益方法作為屬性的選擇標(biāo)準(zhǔn),來(lái)幫助確定生成每個(gè)節(jié)點(diǎn)時(shí)所應(yīng)采用的合適屬性。
2.C4.5算法:C4.5決策樹(shù)生成算法相對(duì)于ID3算法的重要改進(jìn)是使用信息增益率來(lái)選擇節(jié)點(diǎn)屬性。C4.5算法可以克服ID3算法存在的不足:ID3算法只適用于離散的描述屬性,而C4.5算法既能夠處理離散的描述屬性,也可以處理連續(xù)的描述屬性。
3.CART算法:CART決策樹(shù)是一種十分有效的非參數(shù)分類(lèi)和回歸方法,通過(guò)構(gòu)建樹(shù)、修剪樹(shù)、評(píng)估樹(shù)來(lái)構(gòu)建一個(gè)二叉樹(shù)。當(dāng)終結(jié)點(diǎn)是連續(xù)變量時(shí),該樹(shù)為回歸樹(shù);當(dāng)終結(jié)點(diǎn)是分類(lèi)變量時(shí),該樹(shù)為分類(lèi)樹(shù);
人工神經(jīng)網(wǎng)絡(luò):
人工神經(jīng)網(wǎng)絡(luò)是一種模仿大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的信息處理系統(tǒng),表示神經(jīng)網(wǎng)絡(luò)的輸入與輸出變量之間關(guān)系的模型。
1.BP神經(jīng)網(wǎng)絡(luò):是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò),學(xué)習(xí)算法是誤差校正學(xué)習(xí)算法,是目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。
2.LM神經(jīng)網(wǎng)絡(luò):是基于梯度下降法和牛頓法結(jié)合的多層前饋網(wǎng)絡(luò),特點(diǎn):迭代次數(shù)少,收斂速度快,精確度高。
3.RBF徑向基神經(jīng)網(wǎng)絡(luò):RBF網(wǎng)絡(luò)能夠以任意精度逼近任意連續(xù)函數(shù),從輸入層到隱含層的變換是非線性的,而從隱含層到輸出層的變換是線性的,特別適合于解決分類(lèi)問(wèn)題。
4.FNN模糊神經(jīng)網(wǎng)絡(luò):FNN模糊神經(jīng)網(wǎng)絡(luò)是具有模糊權(quán)系數(shù)或者輸入信號(hào)是模糊量的神經(jīng)網(wǎng)絡(luò),是模糊系統(tǒng)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的產(chǎn)物,它匯聚了神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)的優(yōu)點(diǎn),集聯(lián)想、識(shí)別、自適應(yīng)及模糊信息于一體
5.GMDH神經(jīng)網(wǎng)絡(luò):GMDH網(wǎng)絡(luò)也稱(chēng)為多項(xiàng)式網(wǎng)絡(luò),它是前饋神經(jīng)網(wǎng)絡(luò)中常用的一種用于預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)。它的特點(diǎn)是網(wǎng)路結(jié)構(gòu)不固定,而且在訓(xùn)練過(guò)程中不斷改變。
6.ANFIS自適應(yīng)神經(jīng)網(wǎng)絡(luò):神經(jīng)網(wǎng)絡(luò)鑲嵌在一個(gè)全部模糊的結(jié)構(gòu)之中,在不知不覺(jué)中向訓(xùn)練數(shù)據(jù)學(xué)習(xí),自動(dòng)產(chǎn)生、修正并高度概括出最佳的輸入與輸出變量的隸屬函數(shù)及模糊規(guī)則;另外,神經(jīng)網(wǎng)絡(luò)的各層結(jié)構(gòu)與參數(shù)也都具有了明確的、易于理解的物理意義。

貝葉斯網(wǎng)絡(luò):
貝葉斯網(wǎng)絡(luò)又稱(chēng)信度網(wǎng)絡(luò),是Bayes方法的擴(kuò)展,是目前不確定知識(shí)表達(dá)和推理領(lǐng)域最有效的理論模型之一。
支持向量機(jī):
支持向量機(jī)是一種通過(guò)某種非線性映射,把低維的非線性可分轉(zhuǎn)化為高維的線性可分,在高維空間進(jìn)行線性分析的算法。