深入理解Dirichlet過程

Dirichlet分布(Dirichelt Distribution)和Dirichlet過程 (Dirichlet Process)廣泛應(yīng)用于信息檢索、自然語言處理等領(lǐng)域,是理解主題模型的重要一步。而且它作為一種非參數(shù)模型(non-paramatric model),和參數(shù)模型一樣有著越來越廣泛的應(yīng)用。

文本提供了一種對(duì)Dirichlet 過程的理解。本文適合了解高斯過程,對(duì)Dirichlet過程有一定了解,但又有些困惑的同學(xué)。希望讀完這篇文章能進(jìn)一步提升對(duì)Dirichlet的理解。

隨機(jī)過程

粗略地說,隨機(jī)過程是概率分布的擴(kuò)展。我們一般講概率分布,是有限維的隨機(jī)變量的概率分布,而隨機(jī)過程所研究的對(duì)象是無限維的。因此,也把隨機(jī)過程所研究的對(duì)象稱作隨機(jī)函數(shù)。

隨機(jī)變量之于概率分布,就像隨機(jī)函數(shù)之于隨機(jī)過程。

機(jī)器學(xué)習(xí)領(lǐng)域常見的隨機(jī)過程有:Gaussian Process, Dirichlet Process, Beta Process, Gamma Process等等。

高斯過程

理解Dirichlet過程,可以類比高斯過程。高斯過程(GP)是定義在函數(shù)上的概率分布。

這里的f(x)被稱作隨機(jī)函數(shù),每一個(gè)x對(duì)應(yīng)的f(x)都是一個(gè)隨機(jī)變量,可以將這個(gè)隨機(jī)函數(shù)看做是多維隨機(jī)變量的擴(kuò)展。由于我們一般考慮的函數(shù)的定義域都包含無限個(gè)自變量(如定義域?yàn)閷?shí)數(shù)域),無法顯式地寫出其聯(lián)合概率密度函數(shù),因普通的多維隨機(jī)變量的定義無法表示高斯過程的定義。

所以,一般的隨機(jī)過程包括高斯過程,都是通過一個(gè)邊緣概率密度函數(shù)(f(x1), f(x2), ..., f(xn))來定義的。

這相當(dāng)于我們無法一次看完一個(gè)無限的東西,所以想了個(gè)辦法,對(duì)它的局部照相。對(duì)于任何局部(x1, x2, ..., xn),我們都有一個(gè)相片(f(x1), f(x2), ..., f(xn))。這里,均值m和協(xié)方差c唯一地決定一個(gè)GP。

Dirichlet分布

Dirichlet分布是定義在K維概率單純形(K-dimentional probability simplex)上的分布。

K維概率單純形,說的好像很復(fù)雜,其實(shí)就是和為1,因此可以將pi看作是一個(gè)概率分布。

Dirichlet分布的概率密度函數(shù)是

Dirichlet有很多優(yōu)美的性質(zhì),比如將這里的隨機(jī)變量的元素拆分或者合并,結(jié)果還是服從Dirichelt分布。如下

Dirichlet過程

Dirichlet過程(DP)是定義在概率測(cè)度上的分布。

概率測(cè)度也就是概率,它是定義在樣本空間sigam域上的函數(shù),滿足一定的性質(zhì)。樣本空間就是我們要研究的空間 ,比如主題模型中所有的詞構(gòu)成的空間就是我們的樣本空間。sigma域也很簡單,就是該空間的所有的子集構(gòu)成的空間。對(duì)于有n個(gè)元素的樣本空間 ,它的sigma域有2^n個(gè)元素。這里的“滿足一定的性質(zhì)”,主要指可列可加性。通俗地說,即一些不相交集合的并的概率等于對(duì)每個(gè)集合的概率作和。

和GP類似,我們無法顯式地定義DP。那只能對(duì)DP的局部“照相”。如何照相呢?

設(shè)G是一個(gè)隨機(jī)概率測(cè)度,對(duì)樣本空間做一個(gè)劃分(A1, A2, ..., Ak),(G(A1), G(A2), ..., G(Ak))就可以看做一張相片。這里的 G(A1), G(A2), ..., G(Ak)也是一個(gè)多維隨機(jī)變量,和高斯過程中的f(x1), f(x2), ..., f(xn)相當(dāng)。而且由于G是概率測(cè)度,我們還能得出G(A1)+G(A2)+...+G(Ak)=1,即一個(gè)劃分和一個(gè)概率測(cè)度唯一地決定了一個(gè)概率分布。

如果對(duì)樣本空間的任意一個(gè)劃分(A1, A2, ..., Ak),都有(G(A1), G(A2), ..., G(Ak))滿足Dirichlet分布。那么我們稱G是一個(gè)Dirichlet過程。

記為

H是一個(gè)基分布(base distribution),可以看做G的期望;alpha是系數(shù),可以看做G的方差的“倒數(shù)”。


參考文獻(xiàn)

https://www.stats.ox.ac.uk/~teh/teaching/npbayes/mlss2007.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容