分類問題

數(shù)據(jù)挖掘之分類模型

判別分析是在已知研究對象分成若干類型并已經(jīng)取得各種類型的一批已知樣本的觀測數(shù)據(jù),在此基礎上根據(jù)某些準則建立判別式,然后對未知類型的樣品進行判別分析。

聚類分析則是給定的一批樣品,要劃分的類型實現(xiàn)并不知道,正需要通過局內(nèi)分析來給以確定類型的。


判別分析距離判別法

基本思想:首先根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心即分組(類)的均值,判別準則是對任給的一次觀測,若它與第i類的重心距離最近,就認為它來自第i類。至于距離的測定,可以根據(jù)實際需要采用歐氏距離、馬氏距離、明科夫距離等。

Fisher判別法

基本思想:從兩個總體中抽取具有p個指標的樣品觀測數(shù)據(jù),借助方差分析的思想構造一個判別函數(shù)或稱判別式

其中系數(shù)ci確定的原則是使兩組間的區(qū)別最大,而使每個組內(nèi)部的離差最小。

對于一個新的樣品,將它的p個指標值代人判別式中求出y值,然后與判別臨界值(或稱分界點(后面給出)進行比較,就可以判別它應屬于哪一個總體。在兩個總體先驗概率相等的假設下,判別臨界值一般?。?/p>

最后,用F統(tǒng)計量來檢驗判別效果,若FF則認為判別有效,否則判別無效。以上描述的是兩總體判別,至于多總體判別方法則需要加以擴展。Fisher判別法隨著總體數(shù)的增加,建立的判別式也增加,因而計算比較復雜。



Bayes判別法

基本思想:

基本思想:假定對所研究的對象有一定的認識,即假設k個總體中,第i個總體Gi的先驗概率為qi,概率密度函數(shù)為f(x)。利用bayes公式計算觀測樣品X來自第j個總體的后驗概


時,將樣本X判為總體Gh。



逐步判別法

基本思想與逐步回歸法類似,采用“有進有出”的算法,逐步引入變量,每次引入一個變量進入判別式,則同時考慮在較早引入判別式的某些作用不顯著的變量剔除出去。



聚類分析

聚類分析是一種無監(jiān)督的分類方法,即不預先指定類別。

根據(jù)分類對象不同,聚類分析可以分為樣本聚類(Q型)和變量聚類(R型)。樣本聚類針對觀測樣本進行分類,而變量聚類則是試圖找出彼此獨立且有代表性的自變量,而又不丟失大部分信息。變量聚類是一種降維的方法。


系統(tǒng)聚類法(分層聚類法)

基本思想:開始將每個樣本自成一類;然后求兩兩之間的距離,將距離最近的兩類合成一類;如此重復,直到所有樣本都合為一類為止。適用范圍:既適用于樣本聚類,也適用于變量聚類。并且距離分類準則和距離計算方法都有多種,可以依據(jù)具體情形選擇。


快速聚類法(K-均值聚類法)

基本思想:按照指定分類數(shù)目n,選擇n個初始聚類中心Zi=(i=1,2....n),計算每個觀測量(樣本)到各個聚類中心的距離,按照就近原則將其分別分到放入各類中;重新計算聚類中心,繼續(xù)以上步驟;滿足停止條件時(如最大迭代次數(shù)等)則停止。使用范圍:要求用戶給定分類數(shù)目n,只適用于樣本聚類(Q型),不適用于變量聚類(R型)。



兩步聚類法(智能聚類方法)

基本思想:先進行預聚類,然后再進行正式聚類。

適用范圍:屬于智能聚類方法,用于解決海量數(shù)據(jù)或者具有復雜類別結構的聚類分析問題??梢酝瑫r處理離散和連續(xù)變量,自動選擇聚類數(shù),可以處理超大樣本量的數(shù)據(jù)。


模糊聚類分析

采用模糊數(shù)學語言對事物按一定的要求進行描述和分類的數(shù)學方法稱為模糊聚類分析。

(1)計算樣本或變量間的相似系數(shù),建立模糊相似矩陣;

(2)利用模糊運算對相似矩陣進行一系列的合成改造,生成模糊等價矩陣

(3)最后根據(jù)不同的截取水平λ對模糊等價矩陣進行截取分類



遺傳算法聚類

遺傳算法是一種模擬自然進化的優(yōu)化搜索算法,它僅依靠適應度函數(shù)就可以搜索最優(yōu)解。介紹了一種基于遺傳算法的聚類分析方法,采用浮點數(shù)編碼方式對聚類的中心進行編碼,并用特征向量與相應聚類中心的歐氏距離的和來判斷聚類劃分的質(zhì)量,通過選擇、交叉和變異操作對聚類中心的編碼進行優(yōu)化,得到使聚類劃分效果最好的聚類中心。


SOM聚類算法

SOM神經(jīng)網(wǎng)絡是由芬蘭神經(jīng)網(wǎng)絡專家Kohonen教授提出的,該算法假設在輸入對象中存在一些拓撲結構或順序,可以實現(xiàn)從輸入空間(n維)到輸出平面(2維)的降維映射,其映射具有拓撲特征保持性質(zhì),與實際的大腦處理有很強的理論聯(lián)系。

SOM網(wǎng)絡包含輸入層和輸出層。輸入層對應一個高維的輸入向量,輸出層由一系列組織在2維網(wǎng)格上的有序節(jié)點構成,輸入節(jié)點與輸出節(jié)點通過權重向量連接。學習過程中,找到與之距離最短的輸出層單元,即獲勝單元,對其更新。同時,將鄰近區(qū)域的權值更新,使輸出節(jié)點保持輸入向量的拓撲特征。

算法流程:

(1) 網(wǎng)絡初始化,對輸出層每個節(jié)點權重賦初值;

(2) 將輸入樣本中隨機選取輸入向量,找到與輸入向量距離最小的權重向量;

(3) 定義獲勝單元,在獲勝單元的鄰近區(qū)域調(diào)整權重使其向輸入向量靠攏;

(4) 提供新樣本、進行訓練;

(5) 收縮鄰域半徑、減小學習率、重復,直到小于允許值,輸出聚類結果。


灰色聚類法

灰色聚類是將聚類對象對于不同聚類指標所擁有的白化素,按幾個灰色類進行歸納,以判斷該聚類對象屬于哪一類。其一般步驟如下:

(一)確定聚類對象和聚類指標

聚類對象記為:i∈{Ⅰ,Ⅱ,…};聚類指標為:k∈{1*,2*,…,n*};給出不同聚類對象不同聚類指標的白化數(shù)dik,構成樣本矩陣D=[dik]

當各個灰類的白化值在數(shù)量上相差太懸殊時,應先作無量綱化處理。

(二)確定灰類及白化函數(shù)fkj(X)

一般取“高” 、“中” 、“低“三種灰類進行分析,記為:j∈{1,2,3}。?

fkj(djk)為第i個聚類對象的第k個指標屬于第j個灰類時的白化函數(shù)值。

(三)求標定聚類權ηkj

(四)求聚類系數(shù)σij

σji為第i個聚類對象第j個灰類的聚類系數(shù)。

(五)構造聚類矩陣

(六)聚類

對于任意i,若σij*=max{σij,j=1,2,3},則說明第i個聚類對象屬于第j個灰類。



神經(jīng)網(wǎng)絡分類方法

神經(jīng)網(wǎng)絡分類算法的重點是構造閾值邏輯單元。一個閾值邏輯單元是一個對象,可以輸入一組加權系數(shù)的量,對它們進行求和。如果這個和達到或者超過了某個閾值,則輸出一個量。比如,輸入值X1, X2, ..., Xn 和它們的權系數(shù):W1, W2, ..., Wn,求和計算出的 Xi*Wi ,產(chǎn)生了激發(fā)層 a = (X1 * W1)+(X2 * W2)+...+(Xi * Wi)+...+ (Xn * Wn)。其中,Xi 是各條記錄出現(xiàn)頻率或其他參數(shù),Wi是實時特征評估模型中得到的權系數(shù)。

算法描述:

若和E都小于允許的誤差,則學習過程結束,否則計算各層節(jié)點的輸出偏差,進行誤差反向傳播,修改網(wǎng)絡連接權值和閾值。


網(wǎng)絡連接權值和節(jié)點閾值,經(jīng)過上述過程的反復修正,逐漸趨于穩(wěn)定的值。

采用BPN法的過程中需要選擇的幾個參數(shù)

①學習率和慣性因子

BP算法本質(zhì)上是優(yōu)化計算中的梯度下降法,利用誤差對于權、閥值的一階導數(shù)信息來指導下一步的權值調(diào)整方向,以求最終得到誤差最小。為了保證算法的收斂性,學習率必須小于某一上限,一般取0<<1而且越接近極小值,由于梯度變化值逐漸趨于零,算法的收斂就越來越慢。在網(wǎng)絡參數(shù)中,學習率和慣性因子是很重要的,它們的取值直接影響到網(wǎng)絡的性能,主要是收斂速度。為提高學習速度,應采用大的。但太大卻可能導致在穩(wěn)定點附近振蕩,乃至不收斂。針對具體的網(wǎng)絡結構模型和學習樣本,都存在一個最佳的學習率和慣性因子,它們的取值范圍一般0~1之間,視實際情況而定。

②初始權值和閾值

在前饋多層神經(jīng)網(wǎng)絡的BP算法中,初始權、閾值一般是在一個固定范圍內(nèi)按均勻分布隨機產(chǎn)生的。一般認為初始權值范圍為-1~+1之間,初始權值的選擇對于局部極小點的防止和網(wǎng)絡收斂速度的提高均有一定程度的影響,如果初始權值范圍選擇不當,學習過程一開始就可能進入“假飽和”現(xiàn)象,甚至進入局部極小點,網(wǎng)絡根本不收斂。初始權、閾值的選擇因具體的網(wǎng)絡結構模式和訓練樣本不同而有所差別,一般應視實際情況而定。

③收斂誤差界值Emin

在網(wǎng)絡訓練過程中應根據(jù)實際情況預先確定誤差界值。誤差界值的選擇完全根據(jù)網(wǎng)絡模型的收斂速度大小和具體樣本的學習精度來確定。當Emin值選擇較小時,學習效果好,但收斂速度慢,訓練次數(shù)增加。如果Emin值取得較大時則相反

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容