聚類算法

聚類概念

無監(jiān)督問題:我們手里沒有標(biāo)簽

聚類:相似的東西分到一組

難點:如何評估,如何調(diào)參

算法概述

一、k-means 算法

基本概念:

1.要得到簇的個數(shù),需要指定k值

2.質(zhì)心:均值,即向量各緯取平均即可

3.距離的度量:常用歐幾里得距離和余弦相似度(先標(biāo)準(zhǔn)化)

4.優(yōu)化目標(biāo):

k-means優(yōu)化目標(biāo)

工作流程:


聚類過程

k-means?

優(yōu)勢:

簡單,快速,適合常規(guī)數(shù)據(jù)集

劣勢:

··k值難確定

··復(fù)雜度與樣本呈線性關(guān)系

··很難發(fā)現(xiàn)任意形狀的簇




二、DBSCAN算法

基本概念:

1. 核心對象:若某個點的密度達到算法設(shè)定的閾值則其為核心點。(即r領(lǐng)域內(nèi)點的數(shù)量不小于minPts)

2.?-鄰域的距離閾值:設(shè)定的半徑r

3.直接密度可達:若某點p在點q的r 鄰域內(nèi),且q是核心點則p-q直接密度可達。

4.密度可達:若有一個點的序列q0、q1、…qk,對任意qi-qi-1是直接密度可達的,則稱從q0到qk密度可達,這實際上是直接密度可達的“傳播”。

5.密度相連:若從某核心點p出發(fā),點q和點k都是密度可達的,則稱點q和點k是密度相連的。

6.邊界點:屬于某一個類的非核心點,不能發(fā)展下線了

7.直接密度可達:若某點p在點q的r 鄰域內(nèi),且q是核心點則p-q直接密度可達。

8.噪聲點:不屬于任何一個類簇的點,從任何一個核心點出發(fā)都是密度不可達的

見下圖:

A:核心對象; ? ?B,C:邊界點; ? ?N:離群點

工作流程:

參數(shù)D:輸入數(shù)據(jù)集

參數(shù)?:指定半徑

MinPts:密度閾值

參數(shù)選擇:

半徑?,可以根據(jù)K距離來設(shè)定:找突變點

K距離:給定數(shù)據(jù)集P={p(i); i=0,1,…n},計算點P(i)到集合D的子集S中所有點之間的距離,距離按照從小到大的順序排序,d(k)就被稱為k-距離。

MinPts:k-距離中k的值,一般取的小一些,多次嘗試

dbscan算法

優(yōu)勢:

不需要指定簇個數(shù)

可以發(fā)現(xiàn)任意形狀的簇

擅長找到離群點(監(jiān)測任務(wù))

兩個參數(shù)就夠了

劣勢:

高維數(shù)據(jù)有些困難(可以做降維)

參數(shù)難以選擇(參數(shù)對結(jié)果的影響非常大)

SKLEARN中效率很慢(數(shù)據(jù)削減策略)




?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容