##[聚類]一起來讀西瓜書:第九章 聚類

一起來讀西瓜書:第九章 聚類 - 簡(jiǎn)書
http://www.itdecent.cn/p/499b2f32a662

概要:在介紹聚類的具體算法之前,我們得要先討論聚類算法涉及的最基本的問題:如何判斷一個(gè)聚類算法結(jié)果的好壞--
聚類結(jié)果的“簇內(nèi)相似度”(intra-cluster similarity)高且“簇間相似度”(inter-cluster similarity)低

聚類算法涉及的最基本的問題:如何判斷一個(gè)聚類算法結(jié)果的好壞

1)聚類結(jié)果好壞的評(píng)估指標(biāo):性能度量
聚類性能度量亦稱聚類“有效性指標(biāo)”(validity index),與監(jiān)督學(xué)習(xí)一樣,它的目的是為了用來評(píng)估聚類結(jié)果的好壞,當(dāng)我們能通過性能度量來評(píng)估聚類的好壞時(shí),我們就可以通過將這個(gè)性能度量作為優(yōu)化目標(biāo)來生成更好的聚類結(jié)果。

對(duì)于聚類算法來說,什么樣的結(jié)果是好的呢?
換言之,聚類結(jié)果的“簇內(nèi)相似度”(intra-cluster similarity)高且“簇間相似度”(inter-cluster similarity)低

我們將聚類的性能度量大致劃分為了以下兩類:
[1]外部指標(biāo)
對(duì)于“外部指標(biāo)”,我們的度量目的就是要使得我們的聚類結(jié)果與參考模型盡可能相近
其度量的中心思想是:聚類結(jié)果中被劃分到同一簇中的樣本在參考模型中也被劃分到同一簇的概率越高代表聚類結(jié)果越好。常用的性能指標(biāo)有:Jaccard系數(shù)、FM指數(shù)、Rand指數(shù)

[2]內(nèi)部指標(biāo)
“內(nèi)部指標(biāo)”通過計(jì)算簇內(nèi)的樣本距離,以及簇間的樣本距離來對(duì)聚類結(jié)果進(jìn)行評(píng)估。常用的性能指標(biāo)有:DB指數(shù)、Dunn指數(shù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1. 章節(jié)主要內(nèi)容 “聚類”(clustering)算法是“無監(jiān)督學(xué)習(xí)”算法中研究最多、應(yīng)用最廣的算法,它試圖將數(shù)...
    閃電隨筆閱讀 5,287評(píng)論 1 24
  • 1. 章節(jié)主要內(nèi)容(遇到不清楚的概念請(qǐng)?jiān)诘诙?jié)基礎(chǔ)知識(shí)中找尋解釋) 在第一章緒論中,我們知道要根據(jù)具體的問題選擇具...
    閃電隨筆閱讀 4,411評(píng)論 1 10
  • 一年前需要用聚類算法時(shí),自己從一些sklearn文檔和博客粗略整理了一些相關(guān)的知識(shí),記錄在電子筆記里備忘,現(xiàn)在發(fā)到...
    wong11閱讀 44,998評(píng)論 0 19
  • 寫在之前 因簡(jiǎn)書導(dǎo)入公式很麻煩,如果想獲得更好的觀看體驗(yàn)請(qǐng)移步https://www.zybuluo.com/ha...
    hainingwyx閱讀 7,035評(píng)論 2 13
  • 一、一句話介紹 聚類通常是指,對(duì)于未標(biāo)記訓(xùn)練樣本,根據(jù)樣本的內(nèi)在相似性,將樣本劃分為若干個(gè)不相交子集的學(xué)習(xí)算法。 ...
    Herbert002閱讀 1,903評(píng)論 0 3

友情鏈接更多精彩內(nèi)容