[PED06]Kernel Clustering: Density Biases and Solutions

四:

通過復制點改變密度。
用過密度轉(zhuǎn)換求得帶寬

第三遍:Question:

  • 2.continuous Gini citerarion
    離散的點怎么看做連續(xù)的問題?
    conditional probability density ρ 怎么理解?為什么要用條件概率密度呢?假設核密度估計=條件概率密度 本質(zhì)上是對核帶寬的一個假設,假設核帶寬可以給出和準確的密度估計??(24)
  • 2.2 密度最大的點為s1,其余為s2


    在這里插入圖片描述
  • 4.2 metric tensor g(f)什么含義?
    |det(gp)|?是將黎曼空間轉(zhuǎn)化為歐式空間?為了密度均衡?但是這樣樣本的每個分量的貢獻不就是相同的了嘛?

第二遍:

證明kernel K-means 在r-small條件下近似于連續(xù)基尼準則,而連續(xù)基尼準則具有Breiman's Bias,所以kernel k-means也有Breiman's Bias。Bias的最優(yōu)解是將密度大的聚為一類,其他的為另一類。
解決這個問題的方法是密度均衡方法:第一種通過增加低密度點的密度來實現(xiàn)(adaptive point weight,第二種是通過密度轉(zhuǎn)換在新的空間達到密度均衡(adaptive geodesic kernel

第一遍:現(xiàn)象:

  • 首先介紹了一系列的聚類準則,kernel k-means等價于AA,他們都有Breiman's Bias;傾向于將密度最大的一部分聚為一類,其余的為另一類。


    在這里插入圖片描述
  • NC(相當于加權的kernel k-means),他雖然解決了graph cut中opposite density bias,也就是傾向于切割密度最小的孤立的點這個問題,

    在這里插入圖片描述

  • 但是他的normalization還是不夠徹底,還是會有一些bias,比如self-tune這篇中提到的多個規(guī)模的數(shù)據(jù)的情況下。


    在這里插入圖片描述

    在這里插入圖片描述

證明:
證明了在核函數(shù)滿足一定形式的情況下,kernel k-means可以用kernel density estimate的形式來表示。

在這里插入圖片描述

介紹了概率k-means,這是基于模型的聚類方法,如果使用高描述性的參數(shù)模型來描述的話(如GMM),概率K-means可以用標準熵準則近似。熵準則可以近似為Gini準則,離散的基尼準則有bias
在這里插入圖片描述

r-small條件下,kernel K-means可以近似為連續(xù)基尼準則。r-small是指條件概率密度=核密度,實際上是對核帶寬的假設,該核帶寬可以給出一個準確的密度估計(用以密度估計的帶寬≠用于聚類的帶寬)
證明連續(xù)基尼準則有bias,那么與其近似的kernel K-means也有bias。
(理論證明)

  • 提出方法
    1、通過adaptive point weight修改低密度點的密度。密度越小,權重越大,增加的點越多。
    在這里插入圖片描述

    在這里插入圖片描述

    2、adaptive kernel
    定理:黎曼距離的自適應核=嵌入到歐幾里得空間的固定帶寬的核。存在歐幾里得embedding,從歐式空間到N'空間,對于歐式空間的任意一點p,對應于N'空間的fp',有N'空間中與p點的距離=在歐幾里得空間中pq的距離。

根據(jù)這個定理可以得到:
在這里插入圖片描述

那么就涉及到密度轉(zhuǎn)換函數(shù)的選擇、密度估計方法

在這里插入圖片描述

  • NC
    NC使用密度逆轉(zhuǎn)的方法,可以轉(zhuǎn)化為Breiman's Bias問題
    在這里插入圖片描述
  • 統(tǒng)一
    對于自適應方法,NC、AA、AC都是等價的。
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

友情鏈接更多精彩內(nèi)容