聚類分析的一般處理步驟:
確定維度、數據預處理、選擇合適的聚類方法、對聚類效果進行分析、聚類結果分析與展示
一、確定維度
用戶分類是分析在這些維度上的用戶是否有顯著的區(qū)別,因此聚類分析的數據維度的選擇是至關重要的。
需要考慮兩個方面:
目標
首先,維度的選擇在大方向上是要與需要解決的問題相一致。即用戶在這些維度上有顯著的區(qū)別。
In other words,這些維度需要能夠表明用戶的特征,以助于產品設計或優(yōu)化。
如:
用戶行為特征,來針對不同用戶做不同的設計;
活躍度等特征,找出高價值用戶;維度的特征
對于單個維度,數據的分布以正態(tài)分布為佳,其他分布應該進行數據處理。
長尾分布可以取log10()
對于多個維度,維度應該不具有很強的相關性。有很強的相關性,可以作因子分析。
另外,CLIQUE算法,可以發(fā)現子空間的簇,來篩選合適的維度。
二、數據預處理
- 高維度/低維度:高維空間中的鄰近度將趨向于0,導致各個點的臨近度更加一致。維規(guī)約、因子分析、主成分分析。
- 數量級:數量級高的數據集,需要采用可伸縮性的算法。
- 稀疏性:
- 噪聲、離群點:提前排除
- 數據屬性:定量/分類,離散/連續(xù)
- 度量單位:將數據標準化,消除屬性單位的影響
- 權重:對屬性進行加權
三、選擇合適的聚類方法
3.1基于原型的聚類 Prototype-Based Clustering
- K-means
- Mixture Models 混合模型
EM算法
優(yōu)點:比k均值或模糊c均值更一般,可以使用各種類型的分布
缺點:EM算法可能很慢;不能很好處理近似協(xié)線型的數據點;在正確的模型形式方面也存在問題; - Self-Organizing Maps(SOM)自組織映射
3.2基于密度的聚類 Density-Based Clustering
DBSCAN
Subspace Clustering子空間聚類
CLIQUE(Clustering In quest)系統(tǒng)地發(fā)現子空間簇的基于網格的聚類算法
3.3基于圖的聚類 Graph-Based Clustering
Sparsification稀疏化
斷開相似度小于一定閾值的邊,或僅保留連接到點的k個最近鄰的邊
Minimum Spanning Tree(MST) Clustering最小生成樹聚類
產生與單鏈凝聚聚類相同的聚類Chameleon:Hierarchical Clustering with Dynamic Modeling
稀疏化、圖劃分、層次凝聚Jarvis-Patrick聚類算法
以SNN相似度取代兩個點之間的鄰近度
3.4可伸縮的聚類算法 Scalable Clustering Algorithm
BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)
能夠處理離群點
是一種增量的聚類方法,因為它對每一個數據點的聚類的決策都是基于當前已經處理過的數據點,而不是基于全局的數據點。
主要是在數據體量很大的時候使用,而且數據類型是numericalCURE(Clustering Using REpresentative)
處理離群點和具有非球形和非均勻大小的簇的數據
在簇里選定一定數量的點,彼此最遠,以代表簇的形狀
四、對聚類效果進行分析
四、聚類結果分析與展示
通過比較每個簇的描述性統(tǒng)計量,來分析各個簇的特點。