聚類算法評估
假設(shè)沒有外部標(biāo)簽數(shù)據(jù),我們怎么評價不同聚類算法的優(yōu)劣?
非監(jiān)督學(xué)習(xí)往往沒有標(biāo)注數(shù)據(jù),這是模型,算法的設(shè)計直接影響最終的輸出和模型的性能。為了評估不同的聚類算法,我們可以從簇下手。
- 以中心定義的數(shù)據(jù)簇,這類數(shù)據(jù)集體傾向于球形分布,中心往往被定義為質(zhì)心,即此數(shù)據(jù)簇所有點的平均值。集合中數(shù)據(jù)到中心的距離相比到其他簇中心的距離更近。
- 以密度定義的數(shù)據(jù)簇,這類數(shù)據(jù)集合呈現(xiàn)和周圍數(shù)據(jù)簇明顯不同的密度,或稠密,也可能稀疏。當(dāng)數(shù)據(jù)簇不規(guī)則或者相互盤繞,由噪聲,離群點,這是一般使用密度的簇定義。
- 以連通定義的簇,這類數(shù)據(jù)集合中的數(shù)據(jù)點和數(shù)據(jù)點之間有連接關(guān)系,整個數(shù)據(jù)簇表現(xiàn)為圖結(jié)構(gòu),該定義對不規(guī)則的形狀或者纏繞的數(shù)據(jù)簇有效
- 以概念定義的數(shù)據(jù)簇,這類數(shù)據(jù)集合中的所有數(shù)據(jù)點具有某種共同的性質(zhì)。
每種情況都需要不同的評估方法,比如K均值聚類可以使用平方誤差和來評估。
聚類評估的認(rèn)識是估計在數(shù)據(jù)集上進(jìn)行聚類的可行性,以及聚類方法產(chǎn)生結(jié)果的質(zhì)量,這一過程又分為三個子任務(wù)。
估計聚類趨勢
這一步是檢測數(shù)據(jù)分布中是否存在非隨機的簇結(jié)構(gòu),如果數(shù)據(jù)根據(jù)就是隨機的,那么聚類的結(jié)果毫無意義。我們可以通過增加聚類類別的數(shù)量,如果數(shù)據(jù)是基本隨機的,即不存在合適的簇結(jié)構(gòu),那么聚類誤差隨聚類類別數(shù)量增加而變化的幅度不大,也就找不到一個合適的K對應(yīng)數(shù)據(jù)的真實簇數(shù)。判定數(shù)據(jù)簇數(shù)
確定聚類趨勢之后,我們需要找到與真實數(shù)據(jù)分布最吻合的簇數(shù),據(jù)此判定聚類結(jié)果的質(zhì)量。-
測定聚類質(zhì)量
給定預(yù)設(shè)的簇數(shù),不同的聚類算法將其輸出不同的結(jié)果,我們需要判定聚類結(jié)果的質(zhì)量。一般采用下面的指標(biāo)。- 輪廓系數(shù),給定一個點p,該點的輪廓系數(shù)定義為
其中a(p)是點p與同一簇的其他點之間的平均距離,b(p)是點p與另一個不同簇的點之間的最小平均距離。a(p)反應(yīng)了所屬簇的數(shù)據(jù)緊湊程度,b(p)反應(yīng)的是該簇與其他臨近簇的分離程度。b(p)越大,a(p)越小,對應(yīng)的聚類質(zhì)量越好,因此我們將所有點對應(yīng)的輪廓系數(shù)s(p)求平均值來度量聚類結(jié)果的質(zhì)量。 - 均方差標(biāo)準(zhǔn)偏差,用來衡量聚類結(jié)果的緊湊程度,定義如下
其中代表第i個簇,
是該簇的中心,
代表屬于第i簇的一個樣本點,
為第i個簇的樣本數(shù)量,P為樣本點對應(yīng)的向量維數(shù)。RMSSTD可以看成一個歸一化的標(biāo)準(zhǔn)差。
,通常NC
,因此
是一個接近點的總數(shù)的數(shù),可以看成常數(shù)。
- R方,略
- 改進(jìn)Hubert
統(tǒng)計,略
- 輪廓系數(shù),給定一個點p,該點的輪廓系數(shù)定義為