數(shù)據(jù)挖掘之分類模型

判別分析是在已知研究對象分成若干類型并已經(jīng)取得各種類型的一批已知樣本的觀測數(shù)據(jù)，在此基礎上根據(jù)某些準則建立判別式，然后對未知類型的樣品進行判別分析。

聚類分析則是給定的一批樣品，要劃分的類型實現(xiàn)并不知道，正需要通過局內(nèi)分析來給以確定類型的。

判別分析距離判別法

基本思想：首先根據(jù)已知分類的數(shù)據(jù)，分別計算各類的重心即分組(類)的均值，判別準則是對任給的一次觀測，若它與第i類的重心距離最近，就認為它來自第i類。至于距離的測定，可以根據(jù)實際需要采用歐氏距離、馬氏距離、明科夫距離等。

Fisher判別法

基本思想：從兩個總體中抽取具有p個指標的樣品觀測數(shù)據(jù)，借助方差分析的思想構造一個判別函數(shù)或稱判別式

其中系數(shù)ci確定的原則是使兩組間的區(qū)別最大，而使每個組內(nèi)部的離差最小。

對于一個新的樣品，將它的p個指標值代人判別式中求出y值，然后與判別臨界值(或稱分界點(后面給出)進行比較，就可以判別它應屬于哪一個總體。在兩個總體先驗概率相等的假設下，判別臨界值一般?。?/p>

最后，用F統(tǒng)計量來檢驗判別效果，若FF則認為判別有效，否則判別無效。以上描述的是兩總體判別，至于多總體判別方法則需要加以擴展。Fisher判別法隨著總體數(shù)的增加，建立的判別式也增加，因而計算比較復雜。

Bayes判別法

基本思想：

基本思想：假定對所研究的對象有一定的認識，即假設k個總體中，第i個總體Gi的先驗概率為qi，概率密度函數(shù)為f(x)。利用bayes公式計算觀測樣品X來自第j個總體的后驗概

率

當

時，將樣本X判為總體Gh。

逐步判別法

基本思想與逐步回歸法類似，采用“有進有出”的算法，逐步引入變量，每次引入一個變量進入判別式，則同時考慮在較早引入判別式的某些作用不顯著的變量剔除出去。

聚類分析

聚類分析是一種無監(jiān)督的分類方法，即不預先指定類別。

根據(jù)分類對象不同，聚類分析可以分為樣本聚類（Q型）和變量聚類（R型）。樣本聚類針對觀測樣本進行分類，而變量聚類則是試圖找出彼此獨立且有代表性的自變量，而又不丟失大部分信息。變量聚類是一種降維的方法。

系統(tǒng)聚類法（分層聚類法）

基本思想：開始將每個樣本自成一類；然后求兩兩之間的距離，將距離最近的兩類合成一類；如此重復，直到所有樣本都合為一類為止。適用范圍：既適用于樣本聚類，也適用于變量聚類。并且距離分類準則和距離計算方法都有多種，可以依據(jù)具體情形選擇。

快速聚類法（K-均值聚類法）

基本思想：按照指定分類數(shù)目n，選擇n個初始聚類中心Zi=(i=1,2....n),計算每個觀測量（樣本）到各個聚類中心的距離，按照就近原則將其分別分到放入各類中；重新計算聚類中心，繼續(xù)以上步驟；滿足停止條件時（如最大迭代次數(shù)等）則停止。使用范圍：要求用戶給定分類數(shù)目n，只適用于樣本聚類（Q型），不適用于變量聚類（R型）。

兩步聚類法（智能聚類方法）

基本思想：先進行預聚類，然后再進行正式聚類。

適用范圍：屬于智能聚類方法，用于解決海量數(shù)據(jù)或者具有復雜類別結構的聚類分析問題?？梢酝瑫r處理離散和連續(xù)變量，自動選擇聚類數(shù)，可以處理超大樣本量的數(shù)據(jù)。

模糊聚類分析

采用模糊數(shù)學語言對事物按一定的要求進行描述和分類的數(shù)學方法稱為模糊聚類分析。

（1）計算樣本或變量間的相似系數(shù)，建立模糊相似矩陣；

（2）利用模糊運算對相似矩陣進行一系列的合成改造，生成模糊等價矩陣；

（3）最后根據(jù)不同的截取水平λ對模糊等價矩陣進行截取分類

遺傳算法聚類

遺傳算法是一種模擬自然進化的優(yōu)化搜索算法,它僅依靠適應度函數(shù)就可以搜索最優(yōu)解。介紹了一種基于遺傳算法的聚類分析方法,采用浮點數(shù)編碼方式對聚類的中心進行編碼,并用特征向量與相應聚類中心的歐氏距離的和來判斷聚類劃分的質(zhì)量,通過選擇、交叉和變異操作對聚類中心的編碼進行優(yōu)化,得到使聚類劃分效果最好的聚類中心。

SOM聚類算法

SOM神經(jīng)網(wǎng)絡是由芬蘭神經(jīng)網(wǎng)絡專家Kohonen教授提出的，該算法假設在輸入對象中存在一些拓撲結構或順序，可以實現(xiàn)從輸入空間(n維)到輸出平面(2維)的降維映射，其映射具有拓撲特征保持性質(zhì),與實際的大腦處理有很強的理論聯(lián)系。

SOM網(wǎng)絡包含輸入層和輸出層。輸入層對應一個高維的輸入向量，輸出層由一系列組織在2維網(wǎng)格上的有序節(jié)點構成，輸入節(jié)點與輸出節(jié)點通過權重向量連接。學習過程中，找到與之距離最短的輸出層單元，即獲勝單元，對其更新。同時，將鄰近區(qū)域的權值更新，使輸出節(jié)點保持輸入向量的拓撲特征。

算法流程：

(1) 網(wǎng)絡初始化，對輸出層每個節(jié)點權重賦初值；

(2) 將輸入樣本中隨機選取輸入向量，找到與輸入向量距離最小的權重向量；

(3) 定義獲勝單元，在獲勝單元的鄰近區(qū)域調(diào)整權重使其向輸入向量靠攏；

(4) 提供新樣本、進行訓練；

(5) 收縮鄰域半徑、減小學習率、重復，直到小于允許值，輸出聚類結果。

灰色聚類法

灰色聚類是將聚類對象對于不同聚類指標所擁有的白化素，按幾個灰色類進行歸納，以判斷該聚類對象屬于哪一類。其一般步驟如下：

（一）確定聚類對象和聚類指標

聚類對象記為：i∈{Ⅰ，Ⅱ，…}；聚類指標為：k∈{1*，2*，…，n*};給出不同聚類對象不同聚類指標的白化數(shù)dik,構成樣本矩陣D=[dik]

當各個灰類的白化值在數(shù)量上相差太懸殊時，應先作無量綱化處理。

（二）確定灰類及白化函數(shù)fkj(X)

一般取“高” 、“中” 、“低“三種灰類進行分析，記為：j∈{1，2，3}。?

fkj(djk)為第i個聚類對象的第k個指標屬于第j個灰類時的白化函數(shù)值。

（三）求標定聚類權ηkj

（四）求聚類系數(shù)σij

σji為第i個聚類對象第j個灰類的聚類系數(shù)。

（五）構造聚類矩陣

（六）聚類

對于任意i，若σij*=max｛σij，j=1，2，3｝，則說明第i個聚類對象屬于第j個灰類。

神經(jīng)網(wǎng)絡分類方法

神經(jīng)網(wǎng)絡分類算法的重點是構造閾值邏輯單元。一個閾值邏輯單元是一個對象，可以輸入一組加權系數(shù)的量，對它們進行求和。如果這個和達到或者超過了某個閾值，則輸出一個量。比如，輸入值X1, X2, ..., Xn 和它們的權系數(shù)：W1, W2, ..., Wn，求和計算出的 Xi*Wi ，產(chǎn)生了激發(fā)層 a = (X1 * W1)+(X2 * W2)+...+(Xi * Wi)+...+ (Xn * Wn)。其中，Xi 是各條記錄出現(xiàn)頻率或其他參數(shù)，Wi是實時特征評估模型中得到的權系數(shù)。

算法描述：

若和E都小于允許的誤差，則學習過程結束，否則計算各層節(jié)點的輸出偏差，進行誤差反向傳播，修改網(wǎng)絡連接權值和閾值。

網(wǎng)絡連接權值和節(jié)點閾值，經(jīng)過上述過程的反復修正，逐漸趨于穩(wěn)定的值。

采用BPN法的過程中需要選擇的幾個參數(shù)

①學習率和慣性因子

BP算法本質(zhì)上是優(yōu)化計算中的梯度下降法，利用誤差對于權、閥值的一階導數(shù)信息來指導下一步的權值調(diào)整方向，以求最終得到誤差最小。為了保證算法的收斂性，學習率必須小于某一上限，一般取0<<1而且越接近極小值，由于梯度變化值逐漸趨于零，算法的收斂就越來越慢。在網(wǎng)絡參數(shù)中，學習率和慣性因子是很重要的，它們的取值直接影響到網(wǎng)絡的性能，主要是收斂速度。為提高學習速度，應采用大的。但太大卻可能導致在穩(wěn)定點附近振蕩，乃至不收斂。針對具體的網(wǎng)絡結構模型和學習樣本，都存在一個最佳的學習率和慣性因子，它們的取值范圍一般0～1之間，視實際情況而定。

②初始權值和閾值

在前饋多層神經(jīng)網(wǎng)絡的BP算法中，初始權、閾值一般是在一個固定范圍內(nèi)按均勻分布隨機產(chǎn)生的。一般認為初始權值范圍為－1～＋1之間，初始權值的選擇對于局部極小點的防止和網(wǎng)絡收斂速度的提高均有一定程度的影響，如果初始權值范圍選擇不當，學習過程一開始就可能進入“假飽和”現(xiàn)象，甚至進入局部極小點，網(wǎng)絡根本不收斂。初始權、閾值的選擇因具體的網(wǎng)絡結構模式和訓練樣本不同而有所差別，一般應視實際情況而定。

③收斂誤差界值Emin

在網(wǎng)絡訓練過程中應根據(jù)實際情況預先確定誤差界值。誤差界值的選擇完全根據(jù)網(wǎng)絡模型的收斂速度大小和具體樣本的學習精度來確定。當Emin值選擇較小時，學習效果好，但收斂速度慢，訓練次數(shù)增加。如果Emin值取得較大時則相反

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

分類問題

分類問題

數(shù)據(jù)挖掘之分類模型

判別分析距離判別法

Fisher判別法

Bayes判別法

逐步判別法

聚類分析

系統(tǒng)聚類法（分層聚類法）

快速聚類法（K-均值聚類法）

兩步聚類法（智能聚類方法）

模糊聚類分析

遺傳算法聚類

SOM聚類算法

灰色聚類法

神經(jīng)網(wǎng)絡分類方法

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

分類問題

數(shù)據(jù)挖掘之分類模型

判別分析距離判別法

Fisher判別法

Bayes判別法

逐步判別法

聚類分析

系統(tǒng)聚類法（分層聚類法）

快速聚類法（K-均值聚類法）

兩步聚類法（智能聚類方法）

模糊聚類分析

遺傳算法聚類

SOM聚類算法

灰色聚類法

神經(jīng)網(wǎng)絡分類方法

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av