1.聚類定義
?按照個(gè)體的特征將其進(jìn)行分類,使得同一個(gè)類別內(nèi)的個(gè)體之間具有較高的相似度,不同類別之間具有較大的差異性。
?屬于無監(jiān)督學(xué)習(xí)
?對(duì)樣本或者記錄進(jìn)行聚類,采用的相似型指標(biāo)為距離,具體有歐式距離、歐式平方距離、馬氏距離、明式距離。若對(duì)指標(biāo)或者變量進(jìn)行聚類,相似性指標(biāo)則采用相似系數(shù),具體有皮爾遜相關(guān)系數(shù)、夾角余弦、指數(shù)相似系數(shù)等。
2.kmeans
?定義:
kmeans算法是指將N個(gè)樣本劃分到K個(gè)類中,使得每個(gè)點(diǎn)都屬于離它最近的質(zhì)心的類。(質(zhì)心是一個(gè)類內(nèi)部所有樣本點(diǎn)的均值)
?步驟:
第一步:隨機(jī)取得K個(gè)初始質(zhì)心。從數(shù)據(jù)中隨機(jī)抽取K個(gè)點(diǎn)作為初始聚類的中心,有這個(gè)中心代表各個(gè)類。
第二步:把每個(gè)點(diǎn)劃分進(jìn)相應(yīng)的類。通過計(jì)算歐式聚類,把每個(gè)點(diǎn)劃到距離最近的類中
第三步:重新計(jì)算質(zhì)心。重新計(jì)算每個(gè)類的新的質(zhì)心
第四步:對(duì)每個(gè)點(diǎn)計(jì)算到新的質(zhì)心的歐式距離,重新劃分到距離質(zhì)心最近的那個(gè)類中
第五步:不斷計(jì)算新的質(zhì)心,直到質(zhì)心步再發(fā)生變化,各類的點(diǎn)則穩(wěn)定地分到某一類中。
歐式距離衡量的是多維空間中兩個(gè)點(diǎn)之間的絕對(duì)距離,公式如下

3.kmeans的缺陷
?K值需要預(yù)先確定
?kmeans對(duì)初始選取的聚類中心點(diǎn)是敏感的
?kmens對(duì)離群點(diǎn)進(jìn)行聚類時(shí),K均值會(huì)有問題
?不能處理非球形簇、不同尺寸和不同密度的簇。