聚類概念
無監(jiān)督問題:我們手里沒有標(biāo)簽
聚類:相似的東西分到一組
難點:如何評估,如何調(diào)參
算法概述
一、k-means 算法
基本概念:
1.要得到簇的個數(shù),需要指定k值
2.質(zhì)心:均值,即向量各緯取平均即可
3.距離的度量:常用歐幾里得距離和余弦相似度(先標(biāo)準(zhǔn)化)
4.優(yōu)化目標(biāo):

工作流程:

k-means?
優(yōu)勢:
簡單,快速,適合常規(guī)數(shù)據(jù)集
劣勢:
··k值難確定
··復(fù)雜度與樣本呈線性關(guān)系
··很難發(fā)現(xiàn)任意形狀的簇
二、DBSCAN算法
基本概念:
1. 核心對象:若某個點的密度達到算法設(shè)定的閾值則其為核心點。(即r領(lǐng)域內(nèi)點的數(shù)量不小于minPts)
2.?-鄰域的距離閾值:設(shè)定的半徑r
3.直接密度可達:若某點p在點q的r 鄰域內(nèi),且q是核心點則p-q直接密度可達。
4.密度可達:若有一個點的序列q0、q1、…qk,對任意qi-qi-1是直接密度可達的,則稱從q0到qk密度可達,這實際上是直接密度可達的“傳播”。
5.密度相連:若從某核心點p出發(fā),點q和點k都是密度可達的,則稱點q和點k是密度相連的。
6.邊界點:屬于某一個類的非核心點,不能發(fā)展下線了
7.直接密度可達:若某點p在點q的r 鄰域內(nèi),且q是核心點則p-q直接密度可達。
8.噪聲點:不屬于任何一個類簇的點,從任何一個核心點出發(fā)都是密度不可達的
見下圖:
A:核心對象; ? ?B,C:邊界點; ? ?N:離群點

工作流程:
參數(shù)D:輸入數(shù)據(jù)集
參數(shù)?:指定半徑
MinPts:密度閾值

參數(shù)選擇:
半徑?,可以根據(jù)K距離來設(shè)定:找突變點
K距離:給定數(shù)據(jù)集P={p(i); i=0,1,…n},計算點P(i)到集合D的子集S中所有點之間的距離,距離按照從小到大的順序排序,d(k)就被稱為k-距離。
MinPts:k-距離中k的值,一般取的小一些,多次嘗試
dbscan算法
優(yōu)勢:
不需要指定簇個數(shù)
可以發(fā)現(xiàn)任意形狀的簇
擅長找到離群點(監(jiān)測任務(wù))
兩個參數(shù)就夠了
劣勢:
高維數(shù)據(jù)有些困難(可以做降維)
參數(shù)難以選擇(參數(shù)對結(jié)果的影響非常大)
SKLEARN中效率很慢(數(shù)據(jù)削減策略)


