聚類概念

無監(jiān)督問題：我們手里沒有標(biāo)簽

聚類：相似的東西分到一組

難點：如何評估，如何調(diào)參

算法概述

一、k-means 算法

基本概念：

1.要得到簇的個數(shù)，需要指定k值

2.質(zhì)心：均值，即向量各緯取平均即可

3.距離的度量：常用歐幾里得距離和余弦相似度（先標(biāo)準(zhǔn)化）

4.優(yōu)化目標(biāo)：

k-means優(yōu)化目標(biāo)

工作流程：

聚類過程

k-means?

優(yōu)勢：

簡單，快速，適合常規(guī)數(shù)據(jù)集

劣勢：

··k值難確定

··復(fù)雜度與樣本呈線性關(guān)系

··很難發(fā)現(xiàn)任意形狀的簇

二、DBSCAN算法

基本概念：

1. 核心對象：若某個點的密度達到算法設(shè)定的閾值則其為核心點。（即r領(lǐng)域內(nèi)點的數(shù)量不小于minPts）

2.?-鄰域的距離閾值：設(shè)定的半徑r

3.直接密度可達：若某點p在點q的r 鄰域內(nèi)，且q是核心點則p-q直接密度可達。

4.密度可達：若有一個點的序列q0、q1、…qk，對任意qi-qi-1是直接密度可達的，則稱從q0到qk密度可達，這實際上是直接密度可達的“傳播”。

5.密度相連：若從某核心點p出發(fā)，點q和點k都是密度可達的,則稱點q和點k是密度相連的。

6.邊界點:屬于某一個類的非核心點,不能發(fā)展下線了

7.直接密度可達：若某點p在點q的r 鄰域內(nèi)，且q是核心點則p-q直接密度可達。

8.噪聲點：不屬于任何一個類簇的點，從任何一個核心點出發(fā)都是密度不可達的

見下圖：

A：核心對象; ? ?B,C：邊界點; ? ?N：離群點

工作流程：

參數(shù)D：輸入數(shù)據(jù)集

參數(shù)?：指定半徑

MinPts：密度閾值

參數(shù)選擇：

半徑?，可以根據(jù)K距離來設(shè)定：找突變點

K距離：給定數(shù)據(jù)集P={p(i); i=0,1,…n}，計算點P(i)到集合D的子集S中所有點之間的距離，距離按照從小到大的順序排序，d(k)就被稱為k-距離。

MinPts：k-距離中k的值，一般取的小一些，多次嘗試

dbscan算法

優(yōu)勢：

不需要指定簇個數(shù)

可以發(fā)現(xiàn)任意形狀的簇

擅長找到離群點（監(jiān)測任務(wù)）

兩個參數(shù)就夠了

劣勢：

高維數(shù)據(jù)有些困難（可以做降維）

參數(shù)難以選擇（參數(shù)對結(jié)果的影響非常大）

SKLEARN中效率很慢（數(shù)據(jù)削減策略）

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

聚類算法

聚類算法

聚類概念

算法概述

一、k-means 算法

二、DBSCAN算法

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

聚類算法

聚類概念

算法概述

一、k-means 算法

二、DBSCAN算法

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

二、DBSCAN算法