當(dāng)我們?cè)谧鼍垲惾蝿?wù)時(shí),
如果每一類的分布已知的話,那么要求出每個(gè)樣本屬于哪一類,
只需要計(jì)算出它歸屬于 k 個(gè)不同簇的概率,然后選擇概率值最高的那個(gè)簇作為它最終的歸屬即可。

但很多時(shí)候,樣本分布的參數(shù)乃至概率密度函數(shù)的形式都是未知的
這時(shí),我們通過設(shè)定一個(gè)目標(biāo),在優(yōu)化目標(biāo)的時(shí)候求出這些未知的參數(shù)。
在聚類這個(gè)問題中,我們希望達(dá)到的目標(biāo)是:
第 i 個(gè)樣本 x(i) 之所以被歸屬到了第 k 個(gè)簇,是因?yàn)?它在這一類的概率是所有類中概率最大的。
所以目標(biāo)為最大化樣本集的集體概率:

這其實(shí)是一個(gè)似然函數(shù),要優(yōu)化它,可以用極大化對(duì)數(shù)似然函數(shù)的方法,所以取對(duì)數(shù)。
這里面的每個(gè) ? 都是一個(gè)獨(dú)立的概率密度函數(shù)形式,而 θ 是對(duì)應(yīng)的參數(shù)集合,
這時(shí) K 個(gè)分模型的概率分布都不相同——每個(gè)概率密度函數(shù)的形式不同,對(duì)應(yīng)參數(shù)集合不同,參數(shù)本身又都是未知的,如果直接求解就會(huì)非常困難,
所以,這時(shí)我們可以把所有的 ? 都當(dāng)作高斯分布即可。也就是說這些樣本分屬的模型對(duì)應(yīng)的概率密度函數(shù)形式相同,參數(shù)類型也相同,只是參數(shù)的具體取值有所差別:
高斯分布(Gaussian Distribution),又名正態(tài)分布(Normal distribtion),它的密度函數(shù)如上圖公式所示。
現(xiàn)實(shí)生活中的許多自然現(xiàn)象都被發(fā)現(xiàn)近似地符合高斯分布,比如人類的壽命、身高、體重等,在金融、科研、工業(yè)等各個(gè)領(lǐng)域都有大量現(xiàn)實(shí)業(yè)務(wù)產(chǎn)生的數(shù)據(jù)被證明是符合高斯分布的。
這時(shí)就用到了 高斯混合模型(GMM),
就是將若干個(gè)概率分布為高斯分布的分模型混合在一起的模型。
之所以可以把所有的 ? 都當(dāng)作高斯分布,
是高斯分布有一個(gè)非常重要的性質(zhì):中心極限定理
中心極限定理:
在適當(dāng)?shù)臈l件下,大量相互獨(dú)立的隨機(jī)變量的均值經(jīng)適當(dāng)標(biāo)準(zhǔn)化后,依分布收斂于高斯分布,
即無論 xi 的自身分布是什么,隨著 n 變大,這些樣本平均值經(jīng)過標(biāo)準(zhǔn)化處理—后的分布,都會(huì)逐步接近高斯分布。
有了這個(gè)定理,當(dāng)我們遇到一個(gè)問題的時(shí)候,如果對(duì)某一變量做定量分析時(shí)其確定的分布情況未知,只要掌握了大量的觀測(cè)樣本,都可以按照服從高斯分布來處理這些樣本。
例如我們要做一個(gè)聚類任務(wù),無論原本每一簇自身的分布如何,我們都可以用高斯模型來近似表示它們。這個(gè)混合模型,就可以是一個(gè)高斯混合模型(GMM)
GMM 的學(xué)習(xí)目標(biāo)為:
x(i) 是已經(jīng)觀測(cè)到的樣本觀測(cè)數(shù)據(jù),是已知的,zik 是未知的。
因?yàn)橛袥]被觀測(cè)到的隱變量存在,這樣的對(duì)數(shù)似然函數(shù)需要用 EM 算法來優(yōu)化。
用 EM 算法學(xué)習(xí) GMM 的參數(shù)分為4步:
各參數(shù)取初始值開始迭代;
E 步;
M 步;
重復(fù) E 步和 M 步,直到收斂
E 步的任務(wù)是求 Q
M 步的任務(wù)是求 arg max Q
在 E 步,求出了 zik,代入 Q,得到 Q 只和參數(shù) α,μ,σ 有關(guān),
在 M 步,通過分別對(duì)各個(gè)自變量求偏導(dǎo),再令導(dǎo)數(shù)為0,來求取 α,μ,σ 的極值點(diǎn),
然后再帶回到函數(shù)中去求整體 arg max Q 的值。