kmeans聚類

1.聚類定義

?按照個(gè)體的特征將其進(jìn)行分類,使得同一個(gè)類別內(nèi)的個(gè)體之間具有較高的相似度,不同類別之間具有較大的差異性。

?屬于無監(jiān)督學(xué)習(xí)

?對(duì)樣本或者記錄進(jìn)行聚類,采用的相似型指標(biāo)為距離,具體有歐式距離、歐式平方距離、馬氏距離、明式距離。若對(duì)指標(biāo)或者變量進(jìn)行聚類,相似性指標(biāo)則采用相似系數(shù),具體有皮爾遜相關(guān)系數(shù)、夾角余弦、指數(shù)相似系數(shù)等。


2.kmeans

?定義:

kmeans算法是指將N個(gè)樣本劃分到K個(gè)類中,使得每個(gè)點(diǎn)都屬于離它最近的質(zhì)心的類。(質(zhì)心是一個(gè)類內(nèi)部所有樣本點(diǎn)的均值)

?步驟:

第一步:隨機(jī)取得K個(gè)初始質(zhì)心。從數(shù)據(jù)中隨機(jī)抽取K個(gè)點(diǎn)作為初始聚類的中心,有這個(gè)中心代表各個(gè)類。

第二步:把每個(gè)點(diǎn)劃分進(jìn)相應(yīng)的類。通過計(jì)算歐式聚類,把每個(gè)點(diǎn)劃到距離最近的類中

第三步:重新計(jì)算質(zhì)心。重新計(jì)算每個(gè)類的新的質(zhì)心

第四步:對(duì)每個(gè)點(diǎn)計(jì)算到新的質(zhì)心的歐式距離,重新劃分到距離質(zhì)心最近的那個(gè)類中

第五步:不斷計(jì)算新的質(zhì)心,直到質(zhì)心步再發(fā)生變化,各類的點(diǎn)則穩(wěn)定地分到某一類中。

歐式距離衡量的是多維空間中兩個(gè)點(diǎn)之間的絕對(duì)距離,公式如下


3.kmeans的缺陷

?K值需要預(yù)先確定

?kmeans對(duì)初始選取的聚類中心點(diǎn)是敏感的

?kmens對(duì)離群點(diǎn)進(jìn)行聚類時(shí),K均值會(huì)有問題

?不能處理非球形簇、不同尺寸和不同密度的簇。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1. Kmeans聚類算法簡(jiǎn)介 由于具有出色的速度和良好的可擴(kuò)展性,Kmeans聚類算法算得上是最著名的聚類方法。...
    wujingwin閱讀 10,596評(píng)論 1 8
  • 1 聚類與分類的區(qū)別2 k-means 聚類基本概念3 算法優(yōu)缺點(diǎn)4 算法思路5 代碼實(shí)現(xiàn) 1 聚類與分類的區(qū)別 ...
    艾剪疏閱讀 6,092評(píng)論 0 7
  • 介紹 Kmeans聚類算法:K均值聚類聚類:給事物打標(biāo)簽,尋找同一組內(nèi)的個(gè)體之間的一些潛在的相似模式。力圖找到數(shù)據(jù)...
    Michael孟良閱讀 2,517評(píng)論 1 2
  • 一、聚類算法 聚類屬于無監(jiān)督學(xué)習(xí),是數(shù)據(jù)挖掘十大經(jīng)典算法之一 。 二、k-means聚類算法簡(jiǎn)介 1、k-mean...
    JUNjianshuZHU閱讀 1,311評(píng)論 0 1
  • 今天爸爸帶我去少年宮上了小主持人課,給我們上課的是孫老師。首先老師教我們口型操,還教我們站位,男孩要站成八字行,女...
    王啟萱閱讀 201評(píng)論 0 0

友情鏈接更多精彩內(nèi)容