Dirichlet分布（Dirichelt Distribution）和Dirichlet過程（Dirichlet Process）廣泛應(yīng)用于信息檢索、自然語言處理等領(lǐng)域，是理解主題模型的重要一步。而且它作為一種非參數(shù)模型（non-paramatric model），和參數(shù)模型一樣有著越來越廣泛的應(yīng)用。

文本提供了一種對(duì)Dirichlet 過程的理解。本文適合了解高斯過程，對(duì)Dirichlet過程有一定了解，但又有些困惑的同學(xué)。希望讀完這篇文章能進(jìn)一步提升對(duì)Dirichlet的理解。

隨機(jī)過程

粗略地說，隨機(jī)過程是概率分布的擴(kuò)展。我們一般講概率分布，是有限維的隨機(jī)變量的概率分布，而隨機(jī)過程所研究的對(duì)象是無限維的。因此，也把隨機(jī)過程所研究的對(duì)象稱作隨機(jī)函數(shù)。

隨機(jī)變量之于概率分布，就像隨機(jī)函數(shù)之于隨機(jī)過程。

機(jī)器學(xué)習(xí)領(lǐng)域常見的隨機(jī)過程有：Gaussian Process, Dirichlet Process, Beta Process, Gamma Process等等。

高斯過程

理解Dirichlet過程，可以類比高斯過程。高斯過程（GP）是定義在函數(shù)上的概率分布。

這里的f(x)被稱作隨機(jī)函數(shù)，每一個(gè)x對(duì)應(yīng)的f(x)都是一個(gè)隨機(jī)變量，可以將這個(gè)隨機(jī)函數(shù)看做是多維隨機(jī)變量的擴(kuò)展。由于我們一般考慮的函數(shù)的定義域都包含無限個(gè)自變量（如定義域?yàn)閷?shí)數(shù)域），無法顯式地寫出其聯(lián)合概率密度函數(shù)，因普通的多維隨機(jī)變量的定義無法表示高斯過程的定義。

所以，一般的隨機(jī)過程包括高斯過程，都是通過一個(gè)邊緣概率密度函數(shù)(f(x1), f(x2), ..., f(xn))來定義的。

這相當(dāng)于我們無法一次看完一個(gè)無限的東西，所以想了個(gè)辦法，對(duì)它的局部照相。對(duì)于任何局部(x1, x2, ..., xn)，我們都有一個(gè)相片(f(x1), f(x2), ..., f(xn))。這里，均值m和協(xié)方差c唯一地決定一個(gè)GP。

Dirichlet分布

Dirichlet分布是定義在K維概率單純形（K-dimentional probability simplex）上的分布。

K維概率單純形，說的好像很復(fù)雜，其實(shí)就是和為1，因此可以將pi看作是一個(gè)概率分布。

Dirichlet分布的概率密度函數(shù)是

Dirichlet有很多優(yōu)美的性質(zhì)，比如將這里的隨機(jī)變量的元素拆分或者合并，結(jié)果還是服從Dirichelt分布。如下

Dirichlet過程

Dirichlet過程（DP）是定義在概率測(cè)度上的分布。

概率測(cè)度也就是概率，它是定義在樣本空間的sigam域上的函數(shù)，滿足一定的性質(zhì)。樣本空間就是我們要研究的空間，比如主題模型中所有的詞構(gòu)成的空間就是我們的樣本空間。sigma域也很簡單，就是該空間的所有的子集構(gòu)成的空間。對(duì)于有n個(gè)元素的樣本空間，它的sigma域有2^n個(gè)元素。這里的“滿足一定的性質(zhì)”，主要指可列可加性。通俗地說，即一些不相交集合的并的概率等于對(duì)每個(gè)集合的概率作和。

和GP類似，我們無法顯式地定義DP。那只能對(duì)DP的局部“照相”。如何照相呢？

設(shè)G是一個(gè)隨機(jī)概率測(cè)度，對(duì)樣本空間做一個(gè)劃分（A1, A2, ..., Ak），（G(A1), G(A2), ..., G(Ak)）就可以看做一張相片。這里的 G(A1), G(A2), ..., G(Ak)也是一個(gè)多維隨機(jī)變量，和高斯過程中的f(x1), f(x2), ..., f(xn)相當(dāng)。而且由于G是概率測(cè)度，我們還能得出G(A1)+G(A2)+...+G(Ak)=1，即一個(gè)劃分和一個(gè)概率測(cè)度唯一地決定了一個(gè)概率分布。

如果對(duì)樣本空間的任意一個(gè)劃分（A1, A2, ..., Ak），都有（G(A1), G(A2), ..., G(Ak)）滿足Dirichlet分布。那么我們稱G是一個(gè)Dirichlet過程。

記為

H是一個(gè)基分布（base distribution），可以看做G的期望；alpha是系數(shù)，可以看做G的方差的“倒數(shù)”。

參考文獻(xiàn)

https://www.stats.ox.ac.uk/~teh/teaching/npbayes/mlss2007.pdf

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

深入理解Dirichlet過程

深入理解Dirichlet過程

隨機(jī)過程

高斯過程

Dirichlet分布

Dirichlet過程

參考文獻(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

深入理解Dirichlet過程

隨機(jī)過程

高斯過程

Dirichlet分布

Dirichlet過程

參考文獻(xiàn)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av