機器學習| 多元高斯分布(Multivariate Gaussian Distribution)

http://www.itdecent.cn/p/b14a35b9b7ad

還是對計算機的監(jiān)測,我們發(fā)現(xiàn)CPU負載和占用內存之間,存在正相關關系。

CPU負負載增加的時候占用內存也會增加:

假如我們有一個數(shù)據(jù),x1的值是在 0.4 和 0.6 之間,x2的值是在 1.6 和 1.8 之間,就是下圖中的綠點:

它明顯偏離了正常的范圍,所以是一個異常的數(shù)據(jù)。

但如果單獨從CPU負載和占用內存的角度來看,該數(shù)據(jù)卻是混雜正常數(shù)據(jù)之中,處于正常的范圍:

這個異常的數(shù)據(jù)會被認為是正常的,因為我們得到模型的輪廓圖是這樣的:

為了改良這樣的情況,我們需要把特征之間的相關性考慮進來。

第一種方式我們在上一篇筆記中有提到,就是增加一個新的特征 x3,把兩者的相關性考慮進去:

另外一種方式就是形成多元高斯分布(Multivariate Gaussian Distribution),自動捕捉特征之間的相關性,公式如下:

其中 μ 為特征的均值,是一個 n × 1 的向量:

Σ 為 特征的協(xié)方差,是一個 n × n 的矩陣:

假設我們的均值與協(xié)方差的初始值和對應的三維圖形與輪廓圖如下:

μ 決定的是中心的位置,改變 μ 的值意味著中心的移動

協(xié)方差矩陣控制的是對概率密度的敏感度。

例如某個方向的協(xié)方差越小,那么隨著在該方向上的水平位移,高度的變化就越大。

首先我們看看各個特征不相關(正交)的情況:

我們再看一下考慮特征相關性的情況,下面兩個圖片分別到正相關和負相關的變化:

你看之前的模型 p(x) 會把異常數(shù)據(jù)認定為正常,而到了多元高斯分布的模型中,就得到了很好的解決:

之前的模型:

其實是多元高斯分布的一種特例,就是協(xié)方差矩陣 Σ 為對角矩陣的情況:

進行一個簡單的推演你就明白了。

假設我們只有兩個特征:

那么均值和協(xié)方差矩陣分別是:

把它們代入到多元高斯分布的公式中,可以推演得到:

二元高斯分布的密度函數(shù),其實就是兩個獨立的高斯分部密度的乘積,特征更多的情況也是類似的。

需要注意的是,這里的推導不是證明的過程,僅僅是為了讓你更好地理解兩者的關系。

我們知道有這么兩種方式可以處理特征之間的相關關系,那么應該如何選擇呢?

這個需要根據(jù)具體的現(xiàn)實條件進行選擇。

下表是兩者的對比:

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容