四:
通過復制點改變密度。
用過密度轉(zhuǎn)換求得帶寬
第三遍:Question:
- 2.continuous Gini citerarion
離散的點怎么看做連續(xù)的問題?
conditional probability density ρ 怎么理解?為什么要用條件概率密度呢?假設核密度估計=條件概率密度 本質(zhì)上是對核帶寬的一個假設,假設核帶寬可以給出和準確的密度估計??(24) -
2.2 密度最大的點為s1,其余為s2
在這里插入圖片描述 - 4.2 metric tensor g(f)什么含義?
|det(gp)|?是將黎曼空間轉(zhuǎn)化為歐式空間?為了密度均衡?但是這樣樣本的每個分量的貢獻不就是相同的了嘛?
第二遍:
證明kernel K-means 在r-small條件下近似于連續(xù)基尼準則,而連續(xù)基尼準則具有Breiman's Bias,所以kernel k-means也有Breiman's Bias。Bias的最優(yōu)解是將密度大的聚為一類,其他的為另一類。
解決這個問題的方法是密度均衡方法:第一種通過增加低密度點的密度來實現(xiàn)(adaptive point weight,第二種是通過密度轉(zhuǎn)換在新的空間達到密度均衡(adaptive geodesic kernel
第一遍:現(xiàn)象:
-
首先介紹了一系列的聚類準則,kernel k-means等價于AA,他們都有Breiman's Bias;傾向于將密度最大的一部分聚為一類,其余的為另一類。
在這里插入圖片描述 -
NC(相當于加權的kernel k-means),他雖然解決了graph cut中opposite density bias,也就是傾向于切割密度最小的孤立的點這個問題,
在這里插入圖片描述 -
但是他的normalization還是不夠徹底,還是會有一些bias,比如self-tune這篇中提到的多個規(guī)模的數(shù)據(jù)的情況下。
在這里插入圖片描述
在這里插入圖片描述
證明:
證明了在核函數(shù)滿足一定形式的情況下,kernel k-means可以用kernel density estimate的形式來表示。

介紹了概率k-means,這是基于模型的聚類方法,如果使用高描述性的參數(shù)模型來描述的話(如GMM),概率K-means可以用標準熵準則近似。熵準則可以近似為Gini準則,離散的基尼準則有bias
在r-small條件下,kernel K-means可以近似為連續(xù)基尼準則。r-small是指條件概率密度=核密度,實際上是對核帶寬的假設,該核帶寬可以給出一個準確的密度估計(用以密度估計的帶寬≠用于聚類的帶寬)
證明連續(xù)基尼準則有bias,那么與其近似的kernel K-means也有bias。
(理論證明)
-
提出方法
1、通過adaptive point weight修改低密度點的密度。密度越小,權重越大,增加的點越多。
在這里插入圖片描述
在這里插入圖片描述
2、adaptive kernel
定理:黎曼距離的自適應核=嵌入到歐幾里得空間的固定帶寬的核。存在歐幾里得embedding,從歐式空間到N'空間,對于歐式空間的任意一點p,對應于N'空間的fp',有N'空間中與p點的距離=在歐幾里得空間中pq的距離。
那么就涉及到密度轉(zhuǎn)換函數(shù)的選擇、密度估計方法
-
NC
NC使用密度逆轉(zhuǎn)的方法,可以轉(zhuǎn)化為Breiman's Bias問題
在這里插入圖片描述 - 統(tǒng)一
對于自適應方法,NC、AA、AC都是等價的。




