論文閱讀“Variational Deep Embedding: A Generative Approach to Clustering”

Jiang Z, Zheng Y, Tan H, et al. Variational deep embedding: A generative approach to clustering[J]. CoRR, 2016.

摘要翻譯

聚類是計算機視覺和機器學習中最基本的任務(wù)之一。在本文中,作者提出了變分深度嵌入(VaDE)模型,這是一種在變分自動編碼器(VAE)框架內(nèi)提出的新的無監(jiān)督生成聚類方法。具體來說,VaDE用高斯混合模型(GMM)和深度神經(jīng)網(wǎng)絡(luò)(DNN)對數(shù)據(jù)生成過程進行建模:1)GMM選擇一個類簇;2)生成隱含嵌入;3)DNN將隱含嵌入解碼為可觀察的嵌入。VaDE中的推理是以變分的方式進行的:使用不同的DNN對可觀測值的潛在嵌入進行編碼,以便使用隨機梯度變分貝葉斯(SGVB)估計器和重新參數(shù)化技巧對證據(jù)下界(ELBO)進行優(yōu)化。本文進行了強基線的定量比較,實驗結(jié)果表明,VaDE在不同模式的4個基準上顯著優(yōu)于最先進的聚類方法。此外,通過VaDE的生成性質(zhì),論文中還展示了它為任何特定的集群生成高度真實的樣本的能力,而無需在訓練過程中使用監(jiān)督信息。最后,VaDE是一個靈活且可擴展的無監(jiān)督生成聚類框架,比GMM更一般的混合模型更容易置入該模型中。

Intro簡記

作者對現(xiàn)有的聚類方法進行了歸類,包含基于相似度的聚類和基于特征的聚類。

  • 基于相似性的聚類在一個距離矩陣上建立模型,該距離矩陣是一個N×N矩陣,用來測量每對N個樣本之間的距離。最典型的方法是Spectral Clustering,利用距離矩陣的拉普拉斯譜在聚類前降維。

這句話可以作為當數(shù)據(jù)規(guī)模太大時,SC方法無法在合理時間內(nèi)得到實驗結(jié)果的解釋。
But these methods suffer scalability issue due to super-quadratic running time for computing spectra.

  • 基于特征的方法以N×D矩陣作為輸入,其中N為樣本數(shù)目,D為特征維度。該類方法以k-means和GMM模型為代表。其中高斯混合模型(GMM),假設(shè)數(shù)據(jù)點由高斯混合模型(MoG)生成,并利用期望最大化(EM)算法對GMM的參數(shù)進行優(yōu)化。

相比于可以使用深度變分模型用于產(chǎn)生樣本的VAE模型而言,VaDE可以說是對VAE的一種擴展,即一個高斯混合先驗取代了VAE中的單個高斯先驗。因此,從數(shù)據(jù)角度而言,VaDE的設(shè)計更適合于聚類任務(wù)。

模型解析

該部分主要描述變分深度嵌入(VaDE)是如何在變分自動編碼器(VAE)框架內(nèi)的使用概率模型用于聚類。作者指出,在GMM在這個部分中并不是必須的,可以在模型中進行替換。

生成過程

首先是VADE的生成過程。假設(shè)給定數(shù)據(jù)包含有K個簇,一個觀測樣本x∈R^D由以下過程生成:
先明確符號的定義:

符號定義
K是一個預(yù)定義的參數(shù),為高斯混合模型中子高斯模型的數(shù)量;
π_k\geq0是簇k的先驗概率, π ∈ R^K_+ , 1 = \sum^ K_{k=1} π_k;
c 為類簇的標記;
Cat(π)是由π參數(shù)化的分類分布;
\mu_cσ^2_c為類簇c對應(yīng)的高斯分布的均值和方差;
I是一個單位矩陣;
f(z; θ)是一個神經(jīng)網(wǎng)絡(luò),其輸入為z,由θ參數(shù)化;
Ber(\mu_x)N(\mu_x,σ^2_x)分別為多元伯努利分布和高斯分布,由\mu_x\mu_x, σ_x參數(shù)化;
VaDE圖

以及其生成過程應(yīng)該對應(yīng)起來看。

  1. 從分類分布Cat(π)中選定一個類簇c,c ~ Cat(π); 其實就是從中選出子高斯模型
  2. 根據(jù)選定的子高斯模型采樣z,z ~ N (\mu_c,σ^2_c I);
  3. 生成樣本x:
    (1)若x是binary,即x向量中只包含0,1兩個值
    a)計算其對應(yīng)的期望向量\mu_x, 即\mu_x=f(z;\theta)
    b)從多元伯努力分布中采樣x, x ~Ber(\mu_x)
    (2)若x是實值的,即x是由實數(shù)組成的Embedding
    a)計算對應(yīng)的期望和方差\mu_xσ^2_x, 即[\mu_x;logσ^2_x]=f(z;\theta)
    b)從多元高斯分布中采樣x, x ~N(\mu_x,σ^2_x)
    上述的生成過程可以看出,z依賴于c,x依賴于z。因此在給定z的情況下,x和c是相互獨立的,可以由一個聯(lián)合分布p(x,z,c)進行形式化:
    各部分可以分別寫成
變分下界

給定數(shù)據(jù)點,VaDE需要最大化生成樣本的可能性。因此,生成過程中的對數(shù)似然可以寫成:

(小聲bb,為了便于理解大家可以參考GMM中琴生不等式的使用,傳送門
其中L_{ELBO}為證據(jù)下界(ELBO),q(z, c|x)是近似真實后驗p(z,c|x)的變分后驗,這里作者直接假設(shè)它可以因式分解為:

與VAE類似,作者使用一個神經(jīng)網(wǎng)絡(luò)g來建模VaDE中的q(z|x):


q(c|x)的計算可以寫作:

對于分解式
希望q(c|x)近似于p(c|x),并使用q(z|x)作為p(z|x)的代替。
變分下界可以寫成:
顯然,最終的變分下界可以由SGVB和重采樣技巧記性最大化,其參數(shù)包括
參數(shù)集

一旦用最大化變分下界ELBO完成訓練,可以為每個觀察到的樣本x提取一個潛在表示z,
聚類的分配則由形如softmax的方式給出

對VaDE中ELBO下界的分析

按照VAE的做法,作者對VaDE中的變分下界也進行了拆解,寫成了重構(gòu)項+KL散度的形式


KL散度的形式為:高斯混合(MoG)先驗p(z,c)到變分后驗q(z,c|x)的極限散度,它將latent embedding z進行了正則化使其位于MoG流形上。
該先驗的重要性

注:
AE+GMM代表在生成z的時候,直接使用了VaDE中的\mu,忽略了\sigma^2
VAE+GMM表示對數(shù)據(jù)直接進行VAE建模,然后對隱含空間使用GMM;
emmm,有人會問,VaDE難道不等于VAE+GMM么?其實我第一次看的時候,也覺得是這樣,但是!?。?/p>

  • 我又悟了悟,感覺作者的意思是,其實在模型圖中,VaDE使用的是由GMM去選擇類簇c,只是在最后的推導(dǎo)的過程中,便于優(yōu)化,使用了類似VAE-encoder部分的學習方式,估計了q(z|x),且這只是q(z,c|x)中的一項。雖然我不太理解前面推導(dǎo)中我red mark的地方,但是單從形式上看,確實提供了來自數(shù)據(jù)的GMM的相關(guān)信息q(c|x)。
  • 相反,在VAE+GMM中,q(c|x)被替換為了q(c|z)。也就是說,該模型的設(shè)置中,使用了VAE學習出的z代替原始文本x,從生成的角度,其對應(yīng)的維度和包含的信息遠沒有原始文本中多,并且還有由采樣所帶來的損失。因此,VAE+GMM與VaDE在聚類的過程中得出的趨勢大體上是相同的。

感覺對問題的轉(zhuǎn)化和剖析都很到位。但是,在給定x的條件下,z和c相互獨立的假設(shè),我有點不能理解。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容