一、定義
將大量的數(shù)據(jù)集中后作為樣品,從中必然存在一定的相似數(shù)據(jù)或者規(guī)律,基于這個假設(shè)將數(shù)據(jù)分離出來并且發(fā)現(xiàn)不同類的特征
二、應(yīng)用場景
聚類分析常用于數(shù)據(jù)探索或挖掘的前期,做探索性分析;同樣適用于樣本數(shù)量較大的情況下做數(shù)據(jù)預(yù)處理工作。
三、常用的聚類分析算法
聚類分析算法基于劃分、層次、密度、網(wǎng)格、統(tǒng)計學、模型等類型的算法,典型算法包括:K均值(經(jīng)典算法)、DBSCAN、兩步聚類、BIRCH、譜聚類
四、解決的問題與缺點
能解決的問題:數(shù)據(jù)集可以分為幾類;每個類別有多少樣本量。
缺點:無法提供明確的行動指向,聚類結(jié)果更多的是為后期挖掘和分析工作提供預(yù)處理和參考,無法回答“為什么”和“怎么辦”
五、數(shù)據(jù)異常對聚類的影響
K均值異常
1、數(shù)據(jù)的異常值
2、數(shù)據(jù)的一場量綱(量級單位)
3、超大量時應(yīng)該放棄K均值算法
DBSCAN算法:基于密度尋找被低密度趨于分離的高密度空間,以此來實現(xiàn)不同數(shù)據(jù)樣本的聚類。
優(yōu)點:
1、原始數(shù)據(jù)集的分布規(guī)律沒有明顯要求,能適應(yīng)任何數(shù)據(jù)集分布形狀的空間聚類,因此數(shù)據(jù)適應(yīng)性更廣。
2、無須制定聚類數(shù)量,對結(jié)果的先驗要求不高
3、由于DBSCAN可區(qū)分核心對象、邊界點和噪聲點,因此對噪聲的過濾效果好,能有效對應(yīng)數(shù)據(jù)噪點。
高緯度聚類處理方法
1、降維
2、子空間聚類