聚類算法評估

假設(shè)沒有外部標(biāo)簽數(shù)據(jù)，我們怎么評價不同聚類算法的優(yōu)劣？

非監(jiān)督學(xué)習(xí)往往沒有標(biāo)注數(shù)據(jù)，這是模型，算法的設(shè)計直接影響最終的輸出和模型的性能。為了評估不同的聚類算法，我們可以從簇下手。

以中心定義的數(shù)據(jù)簇，這類數(shù)據(jù)集體傾向于球形分布，中心往往被定義為質(zhì)心，即此數(shù)據(jù)簇所有點的平均值。集合中數(shù)據(jù)到中心的距離相比到其他簇中心的距離更近。
以密度定義的數(shù)據(jù)簇，這類數(shù)據(jù)集合呈現(xiàn)和周圍數(shù)據(jù)簇明顯不同的密度，或稠密，也可能稀疏。當(dāng)數(shù)據(jù)簇不規(guī)則或者相互盤繞，由噪聲，離群點，這是一般使用密度的簇定義。
以連通定義的簇，這類數(shù)據(jù)集合中的數(shù)據(jù)點和數(shù)據(jù)點之間有連接關(guān)系，整個數(shù)據(jù)簇表現(xiàn)為圖結(jié)構(gòu)，該定義對不規(guī)則的形狀或者纏繞的數(shù)據(jù)簇有效
以概念定義的數(shù)據(jù)簇，這類數(shù)據(jù)集合中的所有數(shù)據(jù)點具有某種共同的性質(zhì)。

每種情況都需要不同的評估方法，比如K均值聚類可以使用平方誤差和來評估。
聚類評估的認(rèn)識是估計在數(shù)據(jù)集上進(jìn)行聚類的可行性，以及聚類方法產(chǎn)生結(jié)果的質(zhì)量，這一過程又分為三個子任務(wù)。

估計聚類趨勢
這一步是檢測數(shù)據(jù)分布中是否存在非隨機的簇結(jié)構(gòu)，如果數(shù)據(jù)根據(jù)就是隨機的，那么聚類的結(jié)果毫無意義。我們可以通過增加聚類類別的數(shù)量，如果數(shù)據(jù)是基本隨機的，即不存在合適的簇結(jié)構(gòu)，那么聚類誤差隨聚類類別數(shù)量增加而變化的幅度不大，也就找不到一個合適的K對應(yīng)數(shù)據(jù)的真實簇數(shù)。
判定數(shù)據(jù)簇數(shù)
確定聚類趨勢之后，我們需要找到與真實數(shù)據(jù)分布最吻合的簇數(shù)，據(jù)此判定聚類結(jié)果的質(zhì)量。
測定聚類質(zhì)量
給定預(yù)設(shè)的簇數(shù)，不同的聚類算法將其輸出不同的結(jié)果，我們需要判定聚類結(jié)果的質(zhì)量。一般采用下面的指標(biāo)。
- 輪廓系數(shù)，給定一個點p，該點的輪廓系數(shù)定義為
  $s(p)=\frac {b(p)-a(p)}{max\{a(p),b(p)\}}$
  其中a(p)是點p與同一簇的其他點之間的平均距離，b(p)是點p與另一個不同簇的點之間的最小平均距離。a(p)反應(yīng)了所屬簇的數(shù)據(jù)緊湊程度，b(p)反應(yīng)的是該簇與其他臨近簇的分離程度。b(p)越大，a(p)越小，對應(yīng)的聚類質(zhì)量越好，因此我們將所有點對應(yīng)的輪廓系數(shù)s(p)求平均值來度量聚類結(jié)果的質(zhì)量。
- 均方差標(biāo)準(zhǔn)偏差，用來衡量聚類結(jié)果的緊湊程度，定義如下
  $RMSSTD=\{\frac{\sum_i\sum_{x \in C_i }||x-c_i||^2}{P\sum_i(n_i-1)}\}^2$
  其中 $C_i$ 代表第i個簇， $c_i$ 是該簇的中心， $x \in C_i$ 代表屬于第i簇的一個樣本點， $n_i$ 為第i個簇的樣本數(shù)量，P為樣本點對應(yīng)的向量維數(shù)。RMSSTD可以看成一個歸一化的標(biāo)準(zhǔn)差。 $\sum_i(n_i-1)=n-NC$ ，通常NC $\ll n$ ，因此 $\sum_i(n_i-1)$ 是一個接近點的總數(shù)的數(shù)，可以看成常數(shù)。
- R方，略
- 改進(jìn)Hubert $\Gamma$ 統(tǒng)計，略