數(shù)據(jù)分析模型之聚類分析

一、定義

將大量的數(shù)據(jù)集中后作為樣品,從中必然存在一定的相似數(shù)據(jù)或者規(guī)律,基于這個假設(shè)將數(shù)據(jù)分離出來并且發(fā)現(xiàn)不同類的特征

二、應(yīng)用場景

聚類分析常用于數(shù)據(jù)探索或挖掘的前期,做探索性分析;同樣適用于樣本數(shù)量較大的情況下做數(shù)據(jù)預(yù)處理工作。

三、常用的聚類分析算法

聚類分析算法基于劃分、層次、密度、網(wǎng)格、統(tǒng)計學、模型等類型的算法,典型算法包括:K均值(經(jīng)典算法)、DBSCAN、兩步聚類、BIRCH、譜聚類

四、解決的問題與缺點

能解決的問題:數(shù)據(jù)集可以分為幾類;每個類別有多少樣本量。
缺點:無法提供明確的行動指向,聚類結(jié)果更多的是為后期挖掘和分析工作提供預(yù)處理和參考,無法回答“為什么”和“怎么辦”

五、數(shù)據(jù)異常對聚類的影響

K均值異常
1、數(shù)據(jù)的異常值
2、數(shù)據(jù)的一場量綱(量級單位)
3、超大量時應(yīng)該放棄K均值算法

DBSCAN算法:基于密度尋找被低密度趨于分離的高密度空間,以此來實現(xiàn)不同數(shù)據(jù)樣本的聚類。
優(yōu)點:
1、原始數(shù)據(jù)集的分布規(guī)律沒有明顯要求,能適應(yīng)任何數(shù)據(jù)集分布形狀的空間聚類,因此數(shù)據(jù)適應(yīng)性更廣。
2、無須制定聚類數(shù)量,對結(jié)果的先驗要求不高
3、由于DBSCAN可區(qū)分核心對象、邊界點和噪聲點,因此對噪聲的過濾效果好,能有效對應(yīng)數(shù)據(jù)噪點。

高緯度聚類處理方法
1、降維
2、子空間聚類

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容