一.距離度量
對于聚類,其實之前已經(jīng)有算法涉及了,比如GMM,這一章開始再次做系統(tǒng)介紹。聚類的核心思想套用一句俗語:“物以類聚,人與群分”,這里面首先有一個“距離”的概念,“聚”是因為“距離近”,“分”是因為“距離遠”,下面將常用的“距離”羅列一下,首先定義,樣本與樣本點
明科夫斯基距離
這里,,當
時稱為歐氏距離,
稱為曼哈頓距離,
稱為切比雪夫距離,這時:
馬氏距離
這里,為整個樣本集
的協(xié)方差矩陣
相關系數(shù)
夾角余弦
二.類的定義
有了“距離”的定義,我們就可以進一步定義類了,設為給定的正數(shù),若樣本集合
中任意兩個樣本
,有:
三.性能評估
接下來,我們繼續(xù)考慮聚類效果的好壞評估標準,顯然需要符合我們期望的“物以類聚,人以群分”,有了“距離”的定義之后,我們可以換一個表述:類內(nèi)距離盡可能小,類間距離盡可能大,所以我們進一步需要對類內(nèi)距離和類間距離做一個定義
類內(nèi)距離
類內(nèi)最大距離
類中任意兩個樣本之間的最大距離
類內(nèi)平均距離
類內(nèi)任意兩樣本之間距離的均值
散布矩陣
協(xié)方差矩陣
這里,為樣本的維數(shù)
類間距離
設兩類分別為和
最短距離
最長距離
中心距離
這里,和
分別為類
和
的中心點
平均距離
性能評估
所以,我們在此基礎上可以構(gòu)造既能反映類內(nèi)距離,又能反映類間距離的指標
DB 指數(shù)
顯然,DBI越小越好
Dunn指數(shù)
顯然,DI越大越好
輪廓系數(shù)
其中,表示當前樣本與簇內(nèi)其他樣本的平均距離,所以
越小,反映了該簇越聚集,
表示當前樣本與其他簇的平均距離的最小值,所以
越大,表示與其他簇越分離,而輪廓系數(shù)SCI便是所有樣本輪廓系數(shù)的均值,可以看出SCI越大越好
則稱為一個類(簇)