Dirichlet分布(Dirichelt Distribution)和Dirichlet過程 (Dirichlet Process)廣泛應(yīng)用于信息檢索、自然語言處理等領(lǐng)域,是理解主題模型的重要一步。而且它作為一種非參數(shù)模型(non-paramatric model),和參數(shù)模型一樣有著越來越廣泛的應(yīng)用。
文本提供了一種對(duì)Dirichlet 過程的理解。本文適合了解高斯過程,對(duì)Dirichlet過程有一定了解,但又有些困惑的同學(xué)。希望讀完這篇文章能進(jìn)一步提升對(duì)Dirichlet的理解。
隨機(jī)過程
粗略地說,隨機(jī)過程是概率分布的擴(kuò)展。我們一般講概率分布,是有限維的隨機(jī)變量的概率分布,而隨機(jī)過程所研究的對(duì)象是無限維的。因此,也把隨機(jī)過程所研究的對(duì)象稱作隨機(jī)函數(shù)。
隨機(jī)變量之于概率分布,就像隨機(jī)函數(shù)之于隨機(jī)過程。
機(jī)器學(xué)習(xí)領(lǐng)域常見的隨機(jī)過程有:Gaussian Process, Dirichlet Process, Beta Process, Gamma Process等等。
高斯過程
理解Dirichlet過程,可以類比高斯過程。高斯過程(GP)是定義在函數(shù)上的概率分布。

這里的f(x)被稱作隨機(jī)函數(shù),每一個(gè)x對(duì)應(yīng)的f(x)都是一個(gè)隨機(jī)變量,可以將這個(gè)隨機(jī)函數(shù)看做是多維隨機(jī)變量的擴(kuò)展。由于我們一般考慮的函數(shù)的定義域都包含無限個(gè)自變量(如定義域?yàn)閷?shí)數(shù)域),無法顯式地寫出其聯(lián)合概率密度函數(shù),因普通的多維隨機(jī)變量的定義無法表示高斯過程的定義。
所以,一般的隨機(jī)過程包括高斯過程,都是通過一個(gè)邊緣概率密度函數(shù)(f(x1), f(x2), ..., f(xn))來定義的。

這相當(dāng)于我們無法一次看完一個(gè)無限的東西,所以想了個(gè)辦法,對(duì)它的局部照相。對(duì)于任何局部(x1, x2, ..., xn),我們都有一個(gè)相片(f(x1), f(x2), ..., f(xn))。這里,均值m和協(xié)方差c唯一地決定一個(gè)GP。
Dirichlet分布
Dirichlet分布是定義在K維概率單純形(K-dimentional probability simplex)上的分布。
K維概率單純形,說的好像很復(fù)雜,其實(shí)就是和為1,因此可以將pi看作是一個(gè)概率分布。

Dirichlet分布的概率密度函數(shù)是

Dirichlet有很多優(yōu)美的性質(zhì),比如將這里的隨機(jī)變量的元素拆分或者合并,結(jié)果還是服從Dirichelt分布。如下


Dirichlet過程
Dirichlet過程(DP)是定義在概率測(cè)度上的分布。
概率測(cè)度也就是概率,它是定義在樣本空間的sigam域上的函數(shù),滿足一定的性質(zhì)。樣本空間就是我們要研究的空間 ,比如主題模型中所有的詞構(gòu)成的空間就是我們的樣本空間。sigma域也很簡單,就是該空間的所有的子集構(gòu)成的空間。對(duì)于有n個(gè)元素的樣本空間 ,它的sigma域有2^n個(gè)元素。這里的“滿足一定的性質(zhì)”,主要指可列可加性。通俗地說,即一些不相交集合的并的概率等于對(duì)每個(gè)集合的概率作和。
和GP類似,我們無法顯式地定義DP。那只能對(duì)DP的局部“照相”。如何照相呢?
設(shè)G是一個(gè)隨機(jī)概率測(cè)度,對(duì)樣本空間做一個(gè)劃分(A1, A2, ..., Ak),(G(A1), G(A2), ..., G(Ak))就可以看做一張相片。這里的 G(A1), G(A2), ..., G(Ak)也是一個(gè)多維隨機(jī)變量,和高斯過程中的f(x1), f(x2), ..., f(xn)相當(dāng)。而且由于G是概率測(cè)度,我們還能得出G(A1)+G(A2)+...+G(Ak)=1,即一個(gè)劃分和一個(gè)概率測(cè)度唯一地決定了一個(gè)概率分布。

如果對(duì)樣本空間的任意一個(gè)劃分(A1, A2, ..., Ak),都有(G(A1), G(A2), ..., G(Ak))滿足Dirichlet分布。那么我們稱G是一個(gè)Dirichlet過程。
記為

H是一個(gè)基分布(base distribution),可以看做G的期望;alpha是系數(shù),可以看做G的方差的“倒數(shù)”。

參考文獻(xiàn)
https://www.stats.ox.ac.uk/~teh/teaching/npbayes/mlss2007.pdf