機(jī)器學(xué)習(xí)-吳恩達(dá)9(1)-異常檢測(cè)

“黑中有白,白中有黑,沒(méi)有絕對(duì)的白,也沒(méi)有絕對(duì)的黑,黑可襯白,白可映黑。萬(wàn)物皆可轉(zhuǎn)換”。

本文中對(duì)異常檢測(cè)算法做了小結(jié),主要包含:

  1. 問(wèn)題產(chǎn)生

  2. 高斯分布

  3. 算法使用場(chǎng)景

  4. 八種無(wú)監(jiān)督異常檢測(cè)技術(shù)

  5. 異常檢測(cè)和監(jiān)督學(xué)習(xí)對(duì)比

  6. 特征選擇

異常檢測(cè)Novelty Detection

異常是相對(duì)于其他觀測(cè)數(shù)據(jù)而言有明顯偏離的,以至于懷疑它與正常點(diǎn)不屬于同一個(gè)數(shù)據(jù)分布。

異常檢測(cè)是一種用于識(shí)別不符合預(yù)期行為的異常模式的技術(shù),又稱(chēng)之為異常值檢測(cè)。在商業(yè)中也有許多應(yīng)用,如網(wǎng)絡(luò)入侵檢測(cè)(識(shí)別可能發(fā)出黑客攻擊的網(wǎng)絡(luò)流量中的特殊模式)、系統(tǒng)健康性監(jiān)測(cè)、信用卡交易欺詐檢測(cè)、設(shè)備故障檢測(cè)、風(fēng)險(xiǎn)識(shí)別等

問(wèn)題動(dòng)機(jī)

異常檢測(cè)主要是運(yùn)用于非監(jiān)督學(xué)習(xí)的算法。問(wèn)題的引出:通過(guò)飛機(jī)的檢測(cè)開(kāi)始。

檢測(cè)飛機(jī)的引擎制造商生產(chǎn)了一批飛機(jī)引擎,測(cè)試了其中的一些特征變量,比如引擎運(yùn)轉(zhuǎn)時(shí)產(chǎn)生的熱量,或者引擎的振動(dòng)等,假設(shè)有m個(gè)引擎,x^{(1)},x^{(2)},…,x^{(m)}。繪制出如下圖表:

image

對(duì)于給定的數(shù)據(jù)集,需要檢測(cè)x_{test}是不是異常的,即這個(gè)測(cè)試數(shù)據(jù)不屬于這組數(shù)據(jù)的幾率是多少。從上圖看出,在藍(lán)色圈內(nèi)屬于該組的概率高,越是偏遠(yuǎn)的概率,屬于該組的可能性就越低。
\text { if } \quad p(x)\left\{\begin{array}{ll}{<\varepsilon} & {\text { anomaly }} \\ {>=\varepsilon} & {\text { normal }}\end{array}\right.
另外兩個(gè)異常檢測(cè)的應(yīng)用例子是

  • 識(shí)別欺騙行為,通過(guò)用戶多久登陸一次、訪問(wèn)過(guò)的頁(yè)面、發(fā)布帖子的數(shù)量等建立模型,通過(guò)模型來(lái)識(shí)別那些不符合該模型的用戶。
  • 檢測(cè)數(shù)據(jù)中心的使用情況:內(nèi)存使用、被訪問(wèn)的磁盤(pán)數(shù)量、CPU負(fù)載等

高斯分布

高斯分布也叫正態(tài)分布。分布滿足:
x \sim N\left(\mu, \sigma^{2}\right)
概率密度函數(shù)為
p\left(x, \mu, \sigma^{2}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)
均值\mu
\mu=\frac{1}{m} \sum_{i=1}^{m} x^{(i)}
方差\sigma^2
\sigma^{2}=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}-\mu\right)^{2}
高斯分布的樣例為

image

當(dāng)均值\mu相同的時(shí)候

  • 方差的平方越大,圖形是矮胖的
  • 方差的平方越小,圖形是瘦高型的

使用場(chǎng)景

異常檢測(cè)算法的使用場(chǎng)景一般是三種:

  1. 在做特征工程的時(shí)候需要對(duì)異常的數(shù)據(jù)做過(guò)濾,防止對(duì)歸一化等處理的結(jié)果產(chǎn)生影響
  2. 對(duì)沒(méi)有標(biāo)記輸出的特征數(shù)據(jù)做篩選,找出異常的數(shù)據(jù)
  3. 對(duì)有標(biāo)記輸出的特征數(shù)據(jù)做二分類(lèi)時(shí),由于某些類(lèi)別的訓(xùn)練樣本非常少,類(lèi)別嚴(yán)重不平衡,此時(shí)也可以考慮用非監(jiān)督的異常點(diǎn)檢測(cè)算法來(lái)做

算法

算法的具體過(guò)程是

  1. 對(duì)于給定的數(shù)據(jù)集x^{(1)}, x^{(2)}, \ldots, x^{(m)},計(jì)算每個(gè)特征的\mu;\sigma^2
    \mu_j=\frac{1}{m} \sum_{i=1}^{m} x^{(i)}_j

\sigma^{2}_j=\frac{1}{m} \sum_{i=1}^{m}\left(x^{(i)}_j-\mu_j\right)^{2}

image
image
  1. 利用高斯分布進(jìn)行計(jì)算p(x)

p(x)=\Pi^n_{j=1}p(x_j;\mu_j;\sigma^2_j)=\Pi^n_{j=1}\frac{1}{\sqrt{2 \pi} \sigma_j} \exp \left(-\frac{(x_j-\mu_j)^{2}}{2 \sigma^{2}_j}\right)

  1. 兩個(gè)特征的訓(xùn)練集及特征非部分情況


    image
  2. 三維圖表示的是密度函數(shù),z軸為根據(jù)兩個(gè)特征的值估計(jì)的p(x)的值

image

當(dāng) p(x) > \varepsilon時(shí)候,預(yù)測(cè)是正常數(shù)據(jù), 否則為異常

異常算法的設(shè)計(jì)

當(dāng)我們開(kāi)發(fā)一個(gè)異常檢測(cè)系統(tǒng)時(shí),從帶標(biāo)記(異?;蛘#┑臄?shù)據(jù)著手

  • 從其中選擇一部分正常數(shù)據(jù)用于構(gòu)建訓(xùn)練集
  • 然后用剩下的正常數(shù)據(jù)和異常數(shù)據(jù)混合的數(shù)據(jù)構(gòu)成交叉檢驗(yàn)集和測(cè)試集。

八種無(wú)監(jiān)督異常檢測(cè)技術(shù)

  1. 基于統(tǒng)計(jì)的異常檢測(cè)技術(shù)
    1. MA滑動(dòng)平均法
    2. 3—Sigma(拉依達(dá)準(zhǔn)則)
  2. 基于密度的異常檢測(cè)
  3. 基于聚類(lèi)的異常檢測(cè)
  4. 基于K-Means聚類(lèi)的異常檢測(cè)
  5. One Class SVM的異常檢測(cè)
  6. Isolation Forest的異常檢測(cè)
  7. PCA+MD的異常檢測(cè)
  8. AutoEncoder異常檢測(cè)

異常檢測(cè)和監(jiān)督學(xué)習(xí)對(duì)比

異常檢測(cè)中采用的也是帶標(biāo)記的數(shù)據(jù),和監(jiān)督學(xué)習(xí)類(lèi)似。二者對(duì)比為:

異常檢測(cè) 監(jiān)督學(xué)習(xí)
非常少量的正向類(lèi)(異常數(shù)據(jù) y=1),<br />大量的負(fù)向類(lèi)(y=0 同時(shí)有大量的正向類(lèi)和負(fù)向類(lèi)
許多不同種類(lèi)的異常,非常難。根據(jù)非常 少量的正向類(lèi)數(shù)據(jù)來(lái)訓(xùn)練算法。 有足夠多的正向類(lèi)實(shí)例,足夠用于訓(xùn)練 算法,未來(lái)遇到的正向類(lèi)實(shí)例可能與訓(xùn)練集中的非常近似。
未來(lái)遇到的異??赡芘c已掌握的異常、非常的不同。
例如: 欺詐行為檢測(cè) 生產(chǎn)(例如飛機(jī)引擎)檢測(cè)數(shù)據(jù)中心的計(jì)算機(jī)運(yùn)行狀況 例如:郵件過(guò)濾器 天氣預(yù)報(bào) 腫瘤分類(lèi)

當(dāng)正樣本的數(shù)量很少,甚至有時(shí)候是0,即出現(xiàn)了太多沒(méi)見(jiàn)過(guò)的不同的異常類(lèi)型,對(duì)于這些問(wèn)題,通常應(yīng)該使用的算法就是異常檢測(cè)算法。

特征選擇

異常檢測(cè)算法是基于高斯分布的。當(dāng)然不滿足高斯分布也能處理,但是最好轉(zhuǎn)成高斯分布。誤差分析是特征選擇中很重要的點(diǎn)。

有些異常數(shù)據(jù)可能出現(xiàn)較高的p(x)的值,被算法當(dāng)做是正常數(shù)據(jù)。通過(guò)誤差分析,增加新的特征得到新的算法,幫助我們更好地進(jìn)行異常檢測(cè)。

image

新特征獲取:通過(guò)原有特征進(jìn)行組合,得到新的特征

參考資料

  1. 李航-統(tǒng)計(jì)學(xué)習(xí)方法

  2. 八種無(wú)監(jiān)督異常檢測(cè)技術(shù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容