機器學(xué)習(xí)day18聚類算法評價

聚類算法評估

假設(shè)沒有外部標(biāo)簽數(shù)據(jù),我們怎么評價不同聚類算法的優(yōu)劣?

非監(jiān)督學(xué)習(xí)往往沒有標(biāo)注數(shù)據(jù),這是模型,算法的設(shè)計直接影響最終的輸出和模型的性能。為了評估不同的聚類算法,我們可以從簇下手。

  • 以中心定義的數(shù)據(jù)簇,這類數(shù)據(jù)集體傾向于球形分布,中心往往被定義為質(zhì)心,即此數(shù)據(jù)簇所有點的平均值。集合中數(shù)據(jù)到中心的距離相比到其他簇中心的距離更近。
  • 以密度定義的數(shù)據(jù)簇,這類數(shù)據(jù)集合呈現(xiàn)和周圍數(shù)據(jù)簇明顯不同的密度,或稠密,也可能稀疏。當(dāng)數(shù)據(jù)簇不規(guī)則或者相互盤繞,由噪聲,離群點,這是一般使用密度的簇定義。
  • 以連通定義的簇,這類數(shù)據(jù)集合中的數(shù)據(jù)點和數(shù)據(jù)點之間有連接關(guān)系,整個數(shù)據(jù)簇表現(xiàn)為圖結(jié)構(gòu),該定義對不規(guī)則的形狀或者纏繞的數(shù)據(jù)簇有效
  • 以概念定義的數(shù)據(jù)簇,這類數(shù)據(jù)集合中的所有數(shù)據(jù)點具有某種共同的性質(zhì)。

每種情況都需要不同的評估方法,比如K均值聚類可以使用平方誤差和來評估。
聚類評估的認(rèn)識是估計在數(shù)據(jù)集上進(jìn)行聚類的可行性,以及聚類方法產(chǎn)生結(jié)果的質(zhì)量,這一過程又分為三個子任務(wù)。

  1. 估計聚類趨勢
    這一步是檢測數(shù)據(jù)分布中是否存在非隨機的簇結(jié)構(gòu),如果數(shù)據(jù)根據(jù)就是隨機的,那么聚類的結(jié)果毫無意義。我們可以通過增加聚類類別的數(shù)量,如果數(shù)據(jù)是基本隨機的,即不存在合適的簇結(jié)構(gòu),那么聚類誤差隨聚類類別數(shù)量增加而變化的幅度不大,也就找不到一個合適的K對應(yīng)數(shù)據(jù)的真實簇數(shù)。

  2. 判定數(shù)據(jù)簇數(shù)
    確定聚類趨勢之后,我們需要找到與真實數(shù)據(jù)分布最吻合的簇數(shù),據(jù)此判定聚類結(jié)果的質(zhì)量。

  3. 測定聚類質(zhì)量
    給定預(yù)設(shè)的簇數(shù),不同的聚類算法將其輸出不同的結(jié)果,我們需要判定聚類結(jié)果的質(zhì)量。一般采用下面的指標(biāo)。

    • 輪廓系數(shù),給定一個點p,該點的輪廓系數(shù)定義為
      s(p)=\frac {b(p)-a(p)}{max\{a(p),b(p)\}}
      其中a(p)是點p與同一簇的其他點之間的平均距離,b(p)是點p與另一個不同簇的點之間的最小平均距離。a(p)反應(yīng)了所屬簇的數(shù)據(jù)緊湊程度,b(p)反應(yīng)的是該簇與其他臨近簇的分離程度。b(p)越大,a(p)越小,對應(yīng)的聚類質(zhì)量越好,因此我們將所有點對應(yīng)的輪廓系數(shù)s(p)求平均值來度量聚類結(jié)果的質(zhì)量。
    • 均方差標(biāo)準(zhǔn)偏差,用來衡量聚類結(jié)果的緊湊程度,定義如下
      RMSSTD=\{\frac{\sum_i\sum_{x \in C_i }||x-c_i||^2}{P\sum_i(n_i-1)}\}^2
      其中C_i代表第i個簇,c_i是該簇的中心,x \in C_i代表屬于第i簇的一個樣本點,n_i為第i個簇的樣本數(shù)量,P為樣本點對應(yīng)的向量維數(shù)。RMSSTD可以看成一個歸一化的標(biāo)準(zhǔn)差。\sum_i(n_i-1)=n-NC,通常NC\ll n,因此\sum_i(n_i-1)是一個接近點的總數(shù)的數(shù),可以看成常數(shù)。
    • R方,略
    • 改進(jìn)Hubert\Gamma統(tǒng)計,略
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容