“黑中有白,白中有黑,沒(méi)有絕對(duì)的白,也沒(méi)有絕對(duì)的黑,黑可襯白,白可映黑。萬(wàn)物皆可轉(zhuǎn)換”。
本文中對(duì)異常檢測(cè)算法做了小結(jié),主要包含:
問(wèn)題產(chǎn)生
高斯分布
算法使用場(chǎng)景
八種無(wú)監(jiān)督異常檢測(cè)技術(shù)
異常檢測(cè)和監(jiān)督學(xué)習(xí)對(duì)比
特征選擇
異常檢測(cè)Novelty Detection
異常是相對(duì)于其他觀測(cè)數(shù)據(jù)而言有明顯偏離的,以至于懷疑它與正常點(diǎn)不屬于同一個(gè)數(shù)據(jù)分布。
異常檢測(cè)是一種用于識(shí)別不符合預(yù)期行為的異常模式的技術(shù),又稱(chēng)之為異常值檢測(cè)。在商業(yè)中也有許多應(yīng)用,如網(wǎng)絡(luò)入侵檢測(cè)(識(shí)別可能發(fā)出黑客攻擊的網(wǎng)絡(luò)流量中的特殊模式)、系統(tǒng)健康性監(jiān)測(cè)、信用卡交易欺詐檢測(cè)、設(shè)備故障檢測(cè)、風(fēng)險(xiǎn)識(shí)別等
問(wèn)題動(dòng)機(jī)
異常檢測(cè)主要是運(yùn)用于非監(jiān)督學(xué)習(xí)的算法。問(wèn)題的引出:通過(guò)飛機(jī)的檢測(cè)開(kāi)始。
檢測(cè)飛機(jī)的引擎制造商生產(chǎn)了一批飛機(jī)引擎,測(cè)試了其中的一些特征變量,比如引擎運(yùn)轉(zhuǎn)時(shí)產(chǎn)生的熱量,或者引擎的振動(dòng)等,假設(shè)有m個(gè)引擎,
。繪制出如下圖表:

對(duì)于給定的數(shù)據(jù)集,需要檢測(cè)是不是異常的,即這個(gè)測(cè)試數(shù)據(jù)不屬于這組數(shù)據(jù)的幾率是多少。從上圖看出,在藍(lán)色圈內(nèi)屬于該組的概率高,越是偏遠(yuǎn)的概率,屬于該組的可能性就越低。
另外兩個(gè)異常檢測(cè)的應(yīng)用例子是
- 識(shí)別欺騙行為,通過(guò)用戶多久登陸一次、訪問(wèn)過(guò)的頁(yè)面、發(fā)布帖子的數(shù)量等建立模型,通過(guò)模型來(lái)識(shí)別那些不符合該模型的用戶。
- 檢測(cè)數(shù)據(jù)中心的使用情況:內(nèi)存使用、被訪問(wèn)的磁盤(pán)數(shù)量、CPU負(fù)載等
高斯分布
高斯分布也叫正態(tài)分布。分布滿足:
概率密度函數(shù)為
均值為
方差為
高斯分布的樣例為

當(dāng)均值相同的時(shí)候
- 方差的平方越大,圖形是矮胖的
- 方差的平方越小,圖形是瘦高型的
使用場(chǎng)景
異常檢測(cè)算法的使用場(chǎng)景一般是三種:
- 在做特征工程的時(shí)候需要對(duì)異常的數(shù)據(jù)做過(guò)濾,防止對(duì)歸一化等處理的結(jié)果產(chǎn)生影響
- 對(duì)沒(méi)有標(biāo)記輸出的特征數(shù)據(jù)做篩選,找出異常的數(shù)據(jù)
- 對(duì)有標(biāo)記輸出的特征數(shù)據(jù)做二分類(lèi)時(shí),由于某些類(lèi)別的訓(xùn)練樣本非常少,類(lèi)別嚴(yán)重不平衡,此時(shí)也可以考慮用非監(jiān)督的異常點(diǎn)檢測(cè)算法來(lái)做
算法
算法的具體過(guò)程是
- 對(duì)于給定的數(shù)據(jù)集
,計(jì)算每個(gè)特征的


- 利用高斯分布進(jìn)行計(jì)算
-
兩個(gè)特征的訓(xùn)練集及特征非部分情況
image 三維圖表示的是密度函數(shù),
軸為根據(jù)兩個(gè)特征的值估計(jì)的
的值

當(dāng) 時(shí)候,預(yù)測(cè)是正常數(shù)據(jù), 否則為異常
異常算法的設(shè)計(jì)
當(dāng)我們開(kāi)發(fā)一個(gè)異常檢測(cè)系統(tǒng)時(shí),從帶標(biāo)記(異?;蛘#┑臄?shù)據(jù)著手
- 從其中選擇一部分正常數(shù)據(jù)用于構(gòu)建訓(xùn)練集
- 然后用剩下的正常數(shù)據(jù)和異常數(shù)據(jù)混合的數(shù)據(jù)構(gòu)成交叉檢驗(yàn)集和測(cè)試集。
八種無(wú)監(jiān)督異常檢測(cè)技術(shù)
- 基于統(tǒng)計(jì)的異常檢測(cè)技術(shù)
- MA滑動(dòng)平均法
- 3—Sigma(拉依達(dá)準(zhǔn)則)
- 基于密度的異常檢測(cè)
- 基于聚類(lèi)的異常檢測(cè)
- 基于K-Means聚類(lèi)的異常檢測(cè)
- One Class SVM的異常檢測(cè)
- Isolation Forest的異常檢測(cè)
- PCA+MD的異常檢測(cè)
- AutoEncoder異常檢測(cè)
異常檢測(cè)和監(jiān)督學(xué)習(xí)對(duì)比
異常檢測(cè)中采用的也是帶標(biāo)記的數(shù)據(jù),和監(jiān)督學(xué)習(xí)類(lèi)似。二者對(duì)比為:
| 異常檢測(cè) | 監(jiān)督學(xué)習(xí) |
|---|---|
| 非常少量的正向類(lèi)(異常數(shù)據(jù) |
同時(shí)有大量的正向類(lèi)和負(fù)向類(lèi) |
| 許多不同種類(lèi)的異常,非常難。根據(jù)非常 少量的正向類(lèi)數(shù)據(jù)來(lái)訓(xùn)練算法。 | 有足夠多的正向類(lèi)實(shí)例,足夠用于訓(xùn)練 算法,未來(lái)遇到的正向類(lèi)實(shí)例可能與訓(xùn)練集中的非常近似。 |
| 未來(lái)遇到的異??赡芘c已掌握的異常、非常的不同。 | |
| 例如: 欺詐行為檢測(cè) 生產(chǎn)(例如飛機(jī)引擎)檢測(cè)數(shù)據(jù)中心的計(jì)算機(jī)運(yùn)行狀況 | 例如:郵件過(guò)濾器 天氣預(yù)報(bào) 腫瘤分類(lèi) |
當(dāng)正樣本的數(shù)量很少,甚至有時(shí)候是0,即出現(xiàn)了太多沒(méi)見(jiàn)過(guò)的不同的異常類(lèi)型,對(duì)于這些問(wèn)題,通常應(yīng)該使用的算法就是異常檢測(cè)算法。
特征選擇
異常檢測(cè)算法是基于高斯分布的。當(dāng)然不滿足高斯分布也能處理,但是最好轉(zhuǎn)成高斯分布。誤差分析是特征選擇中很重要的點(diǎn)。
有些異常數(shù)據(jù)可能出現(xiàn)較高的的值,被算法當(dāng)做是正常數(shù)據(jù)。通過(guò)誤差分析,增加新的特征得到新的算法,幫助我們更好地進(jìn)行異常檢測(cè)。

新特征獲取:通過(guò)原有特征進(jìn)行組合,得到新的特征
參考資料
李航-統(tǒng)計(jì)學(xué)習(xí)方法
