很多企業(yè)需要通過數(shù)據(jù)分析來幫助他們了解具有某些特性的顧客的消費習(xí)慣,就類似連鎖零售企業(yè)希望知道下個月的銷售趨勢、銷量,從而去準(zhǔn)備采購原材料數(shù)量、鋪貨等等的,這些都是分類與預(yù)測的例子。分類和預(yù)測是預(yù)測問題的兩種主要類型,分類主要是預(yù)測分類標(biāo)號(離散屬性),而預(yù)測主要是建立連續(xù)值函數(shù)模型,預(yù)測給定變量對應(yīng)的因變量的值。
處理過程
1. 分類
分類是構(gòu)造一個分類模型,輸入樣本的屬性值,輸出對應(yīng)的類別,將每個樣本映射到預(yù)先定義好的類別。分類模型建立在已有類標(biāo)記的數(shù)據(jù)集上,模型在已有樣本上的準(zhǔn)確率可以更方便的計算,所以分類是屬于有監(jiān)督的學(xué)習(xí)。
2.預(yù)測
預(yù)測是指建立兩種或兩種以上變量間相互依賴的函數(shù)模型,然后進(jìn)行預(yù)測或控制。
3.實現(xiàn)過程
分類算法有兩步過程: 一是學(xué)習(xí)步,通過歸納分析訓(xùn)練樣本集來建立分類模型得到分類規(guī)則;二是分類步,先用已知的測試樣本集評估分類規(guī)則的準(zhǔn)確率,如果準(zhǔn)確率是可以接受的,則使用該模型對未知類標(biāo)號的待測樣本集來進(jìn)行預(yù)測。
預(yù)測模型的實現(xiàn)步驟也有兩步,一是通過訓(xùn)練集建立預(yù)測屬性(數(shù)值型的)的函數(shù)模型,第二步在模型通過檢驗后進(jìn)行預(yù)測或控制。
常用分類和預(yù)測算法
| 算法 | 算法描述 |
|---|---|
| 回歸分析 | 回歸分析是確定預(yù)測屬性(數(shù)值型)與其他變量間相互依賴的定量關(guān)系最常用的統(tǒng)計學(xué)方法。包括線性回歸、非線性回歸、Logistic回歸、嶺回歸、主成分回歸、偏最小二乘回歸等模型。 |
| 決策樹 | 決策樹采用自頂鄉(xiāng)下的遞歸方式,在內(nèi)部節(jié)點進(jìn)行屬性值比較,并根據(jù)不同的屬性值從該節(jié)點向下分支,最終得到的葉節(jié)點是學(xué)習(xí)劃分的類 |
| 人工神經(jīng)網(wǎng)絡(luò) | 人工神經(jīng)網(wǎng)絡(luò)是一種模仿大腦神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能而建立的信息處理系統(tǒng),表示神經(jīng)網(wǎng)絡(luò)的輸入與輸出變量之間關(guān)系的模型 |
| 貝葉斯網(wǎng)絡(luò) | 貝葉斯網(wǎng)絡(luò)又稱信度網(wǎng)絡(luò),是Bayes方法的拓展,是目前不確定知識表達(dá)和推理領(lǐng)域最有效的理論模型之一 |
| 支持向量機(jī) | 支持向量機(jī)是一種通過某種非線性映射,把低維的非線性可轉(zhuǎn)化為高維度的線性可分,在高維空間進(jìn)行線性分析的算法。 |
回歸分析
回歸分析是通過建立模型來研究變量之間相互關(guān)系的密切程度、結(jié)構(gòu)狀態(tài)以及進(jìn)行模型預(yù)測的一種有效工具。在數(shù)據(jù)挖掘的環(huán)境下,自變量與因變量是具有相關(guān)關(guān)系的,自變量的值是已知的,因變量是要預(yù)測的。

| 模型 | 適用條件 | 算法描述 |
|---|---|---|
| 線性回歸 | 因變量與自變量是線性關(guān)系 | 對一個或多個自變量和因變量之間的線性關(guān)系進(jìn)行建模,可用最小二乘法求解模型系數(shù) |
| 非線性回歸 | 因變量與自變量不都是線性關(guān)系 | 對一個或多個自變量和因變量之間的非線性關(guān)系進(jìn)行建模。如果非線性關(guān)系可以簡單通過函數(shù)轉(zhuǎn)化為線性關(guān)系,用線性回歸的思想求解;如果不能轉(zhuǎn)化,用非線性最小二乘法求解 |
| Logistic回歸 | 因變量一般有是否兩種取值 | 是廣義線性回歸模型的特例,利用Logistic函數(shù)將因變量的取值范圍控制在0~1間,表示取值為1的概率 |
| 嶺回歸 | 參與建模的自變量之間具有多重共線性 | 是一種改進(jìn)最小二乘估計的方法 |
| 主成分回歸 | 參與建模的自變量之間具有多成共線性 | 主成分回歸是根據(jù)主成分分析的思想提出來的,是對最小二乘法的一種改進(jìn),他是參數(shù)估計的一種有偏估計??梢韵兞恐g的多重共線性 |
決策樹
決策樹方法在分類、預(yù)測、規(guī)則提取等領(lǐng)域有廣泛應(yīng)用。構(gòu)造決策樹的核心問題是在每一步如何選擇適當(dāng)?shù)膶傩詫颖咀霾鸱帧σ粋€分類問題,從已知類標(biāo)記的訓(xùn)練樣本中學(xué)習(xí)并構(gòu)造決策樹是自上而下,分而治之的過程。
| 算法 | 描述 |
|---|---|
| ID3算法 | 以信息熵的下降速度為選取測試屬性的標(biāo)準(zhǔn),即在每個節(jié)點選取還尚未被用來劃分的具有最高信息增益的屬性作為劃分標(biāo)準(zhǔn),然后繼續(xù)這個過程,直到生成的決策樹能完美分類訓(xùn)練樣例。只適用于離散的描述屬性 |
| C4.5 | 相較于ID3算法,改進(jìn)使用信息增益率來選擇節(jié)點屬性。 適用于離散的描述屬性,也適用于處理連續(xù)的描述屬性 |
| CART算法 | 是一種十分有效的非參數(shù)分類和回歸方法,通過構(gòu)建樹、修建樹、評估樹來構(gòu)造一個二叉樹。當(dāng)終結(jié)點是連續(xù)變量時,為回歸樹,當(dāng)終結(jié)點是分類變量,為分類樹。 |
人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò),是模擬生活神經(jīng)網(wǎng)絡(luò)進(jìn)行信息處理的一種數(shù)學(xué)模型。它以對大腦的勝利研究成果為基礎(chǔ),其目的在于模擬大腦的某些機(jī)理與機(jī)制,實現(xiàn)一些特定功能。其中人工神經(jīng)元是人工神經(jīng)網(wǎng)絡(luò)操作的基本信息處理單位。
在人工神經(jīng)網(wǎng)絡(luò)發(fā)展過程中,提出了多種不同的學(xué)習(xí)機(jī)制,目前還沒有一種特定的學(xué)習(xí)算法適用于所有的網(wǎng)絡(luò)結(jié)構(gòu)和具體問題。
| 算法 | 描述 |
|---|---|
| LM神經(jīng)網(wǎng)絡(luò) | 給予梯度下降發(fā)和牛頓法結(jié)合的多層前饋網(wǎng)絡(luò),迭代次數(shù)少,收斂速度快,精度高 |
| RBF徑向基神經(jīng)網(wǎng)絡(luò) | RBF網(wǎng)絡(luò)能夠以任意精度逼近任意連續(xù)函數(shù),從輸入層到隱含層的變換是非線性的,從而隱含層到輸出層的變換是線性的,適用于解決分類問題 |
| FNN模糊神經(jīng)網(wǎng)絡(luò) | 具有模糊權(quán)系數(shù)或者輸入信號是模糊量的神經(jīng)網(wǎng)絡(luò),是模糊系統(tǒng)與神經(jīng)網(wǎng)絡(luò)相結(jié)合的產(chǎn)物,它匯聚了神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)的優(yōu)點,集聯(lián)想、識別、自適應(yīng)以及模糊信息處理于一體。 |
| GMDH神經(jīng)網(wǎng)絡(luò) | 也稱為多項式網(wǎng)絡(luò),他是前饋神經(jīng)網(wǎng)絡(luò)中常用的一種用于預(yù)測的神經(jīng)網(wǎng)絡(luò),特點是 網(wǎng)絡(luò)結(jié)構(gòu)不穩(wěn)定,而且在訓(xùn)練過程不斷改變 |
| ANFIS自適應(yīng)神經(jīng)網(wǎng)絡(luò) | 神經(jīng)網(wǎng)絡(luò)鑲嵌在一個全部模糊的結(jié)構(gòu)中,在不知不覺中向訓(xùn)練數(shù)據(jù)學(xué)習(xí),自動產(chǎn)生、修正并高度概括出最佳的輸入和輸出變量的隸屬函數(shù)以及模糊規(guī)則;另外神經(jīng)網(wǎng)絡(luò)的各層結(jié)構(gòu)與參數(shù)也都有了明確,易于理解的物理意義 |