聚類分析:基于數(shù)據(jù)自身信息來(lái)對(duì)數(shù)據(jù)進(jìn)行分類的方法
要求:類別內(nèi)部的差異盡可能小,類別間的差異盡可能大
模型好壞:依據(jù)模型在問(wèn)題中的“有用性”來(lái)判斷模型的好壞。
聚類分析的實(shí)質(zhì):按照距離的遠(yuǎn)近將數(shù)據(jù)分為若干個(gè)類別,以使得達(dá)到要求。
研究問(wèn)題:事先不知道研究的問(wèn)題分為幾類
目的:通過(guò)對(duì)觀測(cè)數(shù)據(jù)進(jìn)行分析處理,選定一種度量個(gè)體接近程度的統(tǒng)計(jì)量,確定分類數(shù)目,建立一種分類方法,并按接近程度對(duì)觀測(cè)對(duì)象給出合理的分類。
分類:根據(jù)距離和相似性定義的方法的不同,可以分為諸多的聚類分析方法,大概有一百多種,理解其本質(zhì)才是我們應(yīng)該做的。
我主要介紹幾個(gè)比較常用的聚類方法:K-means、系統(tǒng)聚類、層次聚類、兩步聚類
一:K-means (快速聚類、k-均值聚類)——非層次聚類 (只能對(duì)樣本進(jìn)行聚類,而不能對(duì)變量進(jìn)行;使用變量必須是連續(xù)變量;對(duì)變量的多元正態(tài)性、方差齊性等條件要求較高,如果忽略這些問(wèn)題就可能導(dǎo)致錯(cuò)誤的結(jié)果)
(1)步驟
@1:確定聚類的類別數(shù);由研究者根據(jù)實(shí)際問(wèn)題指定;在實(shí)際問(wèn)題中,往往需要反復(fù)把數(shù)據(jù)分成不同的類別數(shù),并進(jìn)行比較,從而找出最優(yōu)的方案
@2:根據(jù)研究者指定的聚類中心,或者數(shù)據(jù)本身結(jié)構(gòu)的中心,或者隨機(jī)選擇k個(gè)案例,來(lái)初步確定每個(gè)類別的初始聚類中心
@3:逐一計(jì)算各案例到各類別初始聚類中心的距離,將各案例按距離最近原則歸入各個(gè)類別,并計(jì)算新的聚類中心(平均值表示)
@4:按照新的聚類中心位置,重新計(jì)算各案例距離新的聚類中心的距離,并重新進(jìn)行歸類,更新類別聚類中心
@5: 重復(fù)步驟@4,直到達(dá)到一定的收斂標(biāo)準(zhǔn),或者達(dá)到事先指定的迭代次數(shù)為止
(2)案例:移動(dòng)通信客戶細(xì)分(mobile.sav)
說(shuō)明:前期調(diào)研已知,用戶應(yīng)該被分為5個(gè)群體(數(shù)據(jù)如圖所示)

@1:預(yù)分析(首先看數(shù)據(jù)的整體分布特點(diǎn),判斷是否需要標(biāo)準(zhǔn)化案例) 在描述統(tǒng)計(jì)中可見(jiàn)

明顯的看到:變量之間的平均值差異和標(biāo)準(zhǔn)差差異極大,因此需要考慮對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即另外生成標(biāo)準(zhǔn)化后的數(shù)據(jù)集;如圖操作:

結(jié)果如圖:

@2:k-means聚類分析操作步驟
1:選擇“分析”——》“分類”——》“k-均值聚類”菜單項(xiàng)
2:將6個(gè)標(biāo)準(zhǔn)化后的變量選入“變量”框
3:將Customer_ID選入“個(gè)案標(biāo)注依據(jù)”框
4:將“聚類數(shù)”框更改為5
5:在“迭代”子對(duì)話框中,將最大迭代次數(shù)改為50
6:在“保存”子對(duì)話框中,選中“聚類成員”復(fù)選框
7:確定
操作圖如下:

@3:結(jié)果展示與解釋

初始聚類中心默認(rèn)由軟件自動(dòng)生成,也可人為選擇??!

此為其迭代過(guò)程,一直到各類別均收斂于0?。?br>

此為最終的聚類中心(各個(gè)變量在各個(gè)類別上的平均值)以及各個(gè)類別的案例數(shù)量,可以明顯地看出,各類別之間差異都蠻大的!!并且突出了各個(gè)類別的特點(diǎn),到這一步,問(wèn)題就基本解決了,用戶的分類特性已經(jīng)呈現(xiàn)出來(lái),根據(jù)其變量之間的最終聚類中心的比較即可得出結(jié)論。