論文閱讀_基于深度學(xué)習(xí)的異常檢測(cè)綜述

英文題目:Deep Learning for Anomaly Detection: A Review
中文題目:基于深度學(xué)習(xí)的異常檢測(cè)綜述
論文地址:https://arxiv.org/pdf/2007.02500.pdf
領(lǐng)域:異常檢測(cè),深度學(xué)習(xí)
發(fā)表時(shí)間:2020.01
作者:Guansong Pang,阿德萊德大學(xué)
出處:ACM Comput. Surv.
被引量:697(谷歌學(xué)術(shù))
代碼和數(shù)據(jù):見論文附錄A
閱讀時(shí)間:2022.11.05
全文翻譯:https://blog.csdn.net/pingguolou/article/details/117421638

讀后感

本篇解讀的論文發(fā)表于2020年,主要介紹基于深度學(xué)習(xí)的異常檢測(cè)技術(shù),可作為2009年發(fā)表的那篇高引的傳統(tǒng)異常檢測(cè)綜述的互補(bǔ)。前三章主要是相關(guān)問題和挑戰(zhàn)(1-3章)。從第四章開始總結(jié)了近年來深度異常檢測(cè)的具體方法,共3大分類(4-6章),11個(gè)小分類。分別對(duì)關(guān)鍵直覺,目標(biāo)函數(shù),基本假設(shè),優(yōu)勢(shì)劣勢(shì),及應(yīng)對(duì)挑戰(zhàn)方法進(jìn)行討論。最后討論了未來的機(jī)會(huì),還提供了大量文獻(xiàn)列表和訓(xùn)練數(shù)據(jù)集,實(shí)用性強(qiáng)。本文旨在做一個(gè)二十分鐘左右的簡(jiǎn)單的導(dǎo)讀。

1. 介紹

異常檢測(cè)被定義為:檢測(cè)明顯偏離大多數(shù)數(shù)據(jù)的數(shù)據(jù)實(shí)例。早期技術(shù)涉及:數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和統(tǒng)計(jì)學(xué),近年來深度學(xué)習(xí)在多維數(shù)據(jù)、時(shí)間數(shù)據(jù)、空間數(shù)據(jù)和圖數(shù)據(jù)都表現(xiàn)出巨大提升,深度學(xué)習(xí)異常檢測(cè)是使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征表征和異常得分。

本篇主要貢獻(xiàn)如下:

  • 問題和挑戰(zhàn):提出問題的復(fù)雜性和挑戰(zhàn)。
  • 歸類和方法:將目前深度學(xué)習(xí)異常檢測(cè)分為3大類11小類,并逐一介紹。
  • 文獻(xiàn)回顧:回顧了大量會(huì)議和期刊的文獻(xiàn),通過關(guān)鍵直覺,目標(biāo)函數(shù),基本假設(shè),優(yōu)勢(shì)劣勢(shì),挑戰(zhàn)幾個(gè)方面進(jìn)行分析。
  • 未來的機(jī)會(huì):討論了未來機(jī)會(huì)和挑戰(zhàn)
  • 源碼和數(shù)據(jù)集:收集了大量源代碼和數(shù)據(jù)集。

2. 問題復(fù)雜性和挑戰(zhàn)

2.1 復(fù)雜性

異常檢測(cè)問題的復(fù)雜性主要包含以下幾方面:

  • 不可知性:異常在發(fā)生前常是未知的,且每種異常表現(xiàn)可能不同(異質(zhì)性)。
  • 稀有性和類別不平衡:異常數(shù)據(jù)占比小,難以收集,標(biāo)注;正常與異常分布不均衡。
  • 異常類型多樣:點(diǎn)異常,上下文異常(只在特點(diǎn)背景下才是異常),集體數(shù)據(jù)異常(整體是異常的,但其中點(diǎn)可能正常)。

2.2 主要挑戰(zhàn)

下面問題大多未被很好解決,而深度學(xué)習(xí)方法可能發(fā)揮作用。

  • CH1 異常檢測(cè)召回率(查全率)低:分布不均衡引發(fā)召回率低,需要盡量減少誤報(bào),同時(shí)增加召回率。
  • CH2 高維和非獨(dú)立數(shù)據(jù)的異常檢測(cè):對(duì)于高維空間,常先把特征映射到低維空間,再檢測(cè),如何在映射中保留足夠信息供下游任務(wù)使用;另外還需要處理時(shí)間、空間、圖等相互依賴的關(guān)系。
  • CH3 正常和異常數(shù)據(jù)的使用效率:異常數(shù)據(jù)很難標(biāo)記,更多時(shí)間要處理無監(jiān)督和半監(jiān)督數(shù)據(jù),無監(jiān)督學(xué)習(xí)往往需要依賴對(duì)數(shù)據(jù)分布的假設(shè)。另外,弱監(jiān)督是指只有部分不完整的異常標(biāo)簽(不包含所有異常類別),且可能是不精確的。
  • CH4 抗噪聲異常檢測(cè):需要處理標(biāo)注錯(cuò)誤的實(shí)例(即噪聲)與異常數(shù)據(jù),更好地利用標(biāo)注數(shù)據(jù)。
  • CH5 檢測(cè)復(fù)雜的異常:上下文異常和集體異常需要進(jìn)一步處理;另外,還需要對(duì)多個(gè)異質(zhì)數(shù)據(jù)源的異常,如:多維數(shù)據(jù)、圖像、文本、音頻等數(shù)據(jù)(關(guān)聯(lián)異常)。
  • CH6 異常的解釋:在有些領(lǐng)域不能把模型作為黑盒使用,它可能帶來對(duì)少數(shù)群體的偏見(比如種族偏見),需要利用解釋算法提供決策的原因,以便糾正偏見。尤其對(duì)于復(fù)雜的模型。

相對(duì)來說深度方法能進(jìn)行端到端的優(yōu)化,且能學(xué)到專門的表征(隱藏層輸出),提升數(shù)據(jù)利用率,能處理更復(fù)雜的數(shù)據(jù)(如文本,視頻,圖像等),目前已有成熟的多種框架,相對(duì)傳統(tǒng)方法更有優(yōu)勢(shì)。

3. 使用深度學(xué)習(xí)異常檢測(cè)

3.1 預(yù)備工作

跳過一些神經(jīng)網(wǎng)絡(luò)的基本原理介紹。
深度網(wǎng)絡(luò)可學(xué)習(xí)更好地表征數(shù)據(jù)。設(shè)為X原始空間中的數(shù)據(jù)集,學(xué)習(xí)一個(gè)映射X->Z,將其映射到表示空間,在表示空間中更容易區(qū)分正常和異常數(shù)據(jù)。異常檢測(cè)目標(biāo)是學(xué)習(xí)映射函數(shù)或者學(xué)習(xí)異常得分函數(shù)(異常得分越高,越可能異常)。

3.2 深度異常檢測(cè)分類

文章將深度學(xué)習(xí)異常檢測(cè)分為3大類11小類。

三大類分別是:提取特征的學(xué)習(xí)(一個(gè)子類),標(biāo)準(zhǔn)化的特征表示(兩個(gè)小類,七個(gè)子類),端到端的學(xué)習(xí)(四個(gè)子類)。

4. 深度學(xué)習(xí)的特征提取

該方法從高維提取低維數(shù)據(jù)表示z = ?? (x;Θ),再用于下游的異常檢測(cè),上下游相互獨(dú)立。
與傳統(tǒng)的PCA和隨機(jī)投影相比,深度學(xué)習(xí)在提取富含語(yǔ)義的特征和非線性特征關(guān)系方面表現(xiàn)出更強(qiáng)的能力。
它基于假設(shè):
深度學(xué)習(xí)模型提取的表征保留了有助于將區(qū)分異常的信息
比如使用AlexNet, VGG, ResNet圖像處理框架提圖片低維特征,然后進(jìn)一步代入下游任務(wù),比如把視頻拆成多幀圖像,檢測(cè)其中的異常幀。它需要特征轉(zhuǎn)換器足夠強(qiáng)大,且在不同任務(wù)中盡量是通用的。

優(yōu)點(diǎn)

  • 可使用現(xiàn)成的預(yù)訓(xùn)練模型和異常檢測(cè)方法(SVM)。
  • 網(wǎng)絡(luò)提供了比線性提取器更強(qiáng)的降維功能。
  • 容易實(shí)現(xiàn)。
    缺點(diǎn)
  • 完全分離的特征提取和異常評(píng)分可能導(dǎo)致次優(yōu)結(jié)果。
  • 預(yù)訓(xùn)練的深度學(xué)習(xí)模型往往只能針對(duì)特定類型數(shù)據(jù)。
    挑戰(zhàn)
    將高維投射到低維空間,使現(xiàn)有的異常檢測(cè)方法能夠在更簡(jiǎn)單的數(shù)據(jù)空間中工作,常有助于揭示隱藏的異?,F(xiàn)象,并減少假陽(yáng)性。而在映射過程中可能丟失異常相關(guān)的重要信息。另外,利用深度網(wǎng)絡(luò)可以學(xué)習(xí)從更豐富的數(shù)據(jù)中提取特征。

5. 學(xué)習(xí)特征的通用表示

結(jié)合特征學(xué)習(xí)和異常評(píng)分,一般分為以下兩類:

5.1 通用的標(biāo)準(zhǔn)化特征學(xué)習(xí)

模型就可以直接給出異常得分,通常是其它算法的附產(chǎn)品,未針對(duì)異常檢測(cè)優(yōu)化
通過使用通用的目標(biāo)來學(xué)習(xí)實(shí)例的表征,目標(biāo)函數(shù)往往不是為檢測(cè)設(shè)計(jì),但可用于提升異常檢測(cè)效果。它可以捕捉數(shù)據(jù)中的基本規(guī)律。

其中Θ和W是訓(xùn)練得到的模型參數(shù),??是特征空間的映射,??用于處理具體任務(wù),l是損失函數(shù),s是異常評(píng)分,f是評(píng)分函數(shù)。具體又分為以下4個(gè)子類別:

5.1.1 自編碼器AE

一種廣泛使用的數(shù)據(jù)壓縮和降維技術(shù),低維數(shù)據(jù)表征強(qiáng)制學(xué)習(xí)數(shù)據(jù)的規(guī)律,以最小化重建誤差。異常數(shù)據(jù)很難從低維表征中重建,因此有很大的重建誤差,以此區(qū)分正常和異常。
它基于以下假設(shè):
與異常情況相比,正常實(shí)例可以更好地從壓縮的空間中進(jìn)行重組。
一個(gè)AE由一個(gè)編碼網(wǎng)絡(luò)和一個(gè)解碼網(wǎng)絡(luò)組成,編碼器將原始數(shù)據(jù)映射到低維特征空間,解碼器則試圖從投影的低維空間恢復(fù)數(shù)據(jù),這兩個(gè)網(wǎng)絡(luò)的參數(shù)是用一個(gè)重建損失函數(shù)來學(xué)習(xí)的。模型會(huì)盡量保留與主導(dǎo)實(shí)例(即正常數(shù)據(jù))相關(guān)的信息,而異常數(shù)據(jù)由于偏離正常數(shù)據(jù),所以損失更大,也可將損失作為異常得分。

其中e表示編碼,d表示解碼,z是壓縮后的數(shù)據(jù)x^為重建數(shù)據(jù),s為異常評(píng)分。
之后還提出了AE的更多改進(jìn)版本,如sparse AE, denoising AE, contractive AE等。AE除了處理表格數(shù)據(jù)以外,也被用于序列數(shù)據(jù)圖數(shù)據(jù)圖像視頻的異常檢測(cè),如CNN-AE,LSTM-AE,GCN-AE等,這些方法將編解碼輸入到處理流程中;也有先處理AE,再處理其它網(wǎng)絡(luò)如RNN的方法。

優(yōu)點(diǎn)

  • 方法直接,通用
  • 可使用不同類型AE變體
    缺點(diǎn)
  • 可能由于訓(xùn)練集中不常見的規(guī)律和異常存在偏差。
  • 目標(biāo)是數(shù)據(jù)壓縮,而非異常檢測(cè),沒有對(duì)異常檢測(cè)進(jìn)行優(yōu)化。
    挑戰(zhàn)
    AE可以和不同網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合,檢測(cè)高維數(shù)據(jù)異常及復(fù)雜數(shù)據(jù),學(xué)到的表征數(shù)據(jù)可能優(yōu)于手工提取數(shù)據(jù)。AE容易受到訓(xùn)練中數(shù)據(jù)噪聲的影響,導(dǎo)致過擬和及重建錯(cuò)誤,RPCA(假設(shè)誤差是稀疏的PCA)思想也被用于改進(jìn)AE。

5.1.2 生成對(duì)抗網(wǎng)絡(luò)GAN

基于生成對(duì)抗網(wǎng)絡(luò)的異常檢測(cè)也被廣泛使用,這種方法主要通過生成網(wǎng)絡(luò)G學(xué)習(xí)潛在的特征空間,從而捕捉數(shù)據(jù)的規(guī)則。真實(shí)實(shí)例和生成實(shí)例的殘差被定義為異常得分。
它基于的假設(shè)是:
正常數(shù)據(jù)比異常數(shù)據(jù),通過生成網(wǎng)絡(luò)生成數(shù)據(jù)的效果更好。
AnoGAN是早期的方法,首先用常規(guī)目標(biāo)訓(xùn)練GAN:

其中G是生成模型,D是判別模型,V是博弈的價(jià)值函數(shù),其損失函數(shù)由兩部分組成,一部分是殘差損失,用于衡量生成數(shù)據(jù)的效果:

另一部分是基于特征匹配的損失:

其中??是迭代次數(shù)的索引號(hào),h是隱藏層的輸出。z從一個(gè)隨機(jī)采樣開始,隨著迭代逐步優(yōu)化。異常得分被定義為最后一步得出的z構(gòu)造出的數(shù)據(jù)和x的相似性:

??為超參數(shù)。
AnoGAN的主要問題是Z的迭代搜索效率低,后來又提出了BEGAN,快速AnoGAN,ALAD,GANomaly 進(jìn)一步優(yōu)化,另外還有Wasserstein GAN,Cycle GAN等。

優(yōu)點(diǎn)

  • GAN生成能力強(qiáng),尤其在圖像上能檢測(cè)出從空間重構(gòu)的異常實(shí)例。
  • 大量基于GAN的模型可用于特征檢測(cè)。
    缺點(diǎn)
  • 基于GAN的模型訓(xùn)練困難較大,可能無法收斂或模型崩潰。
  • 當(dāng)訓(xùn)練數(shù)據(jù)包含意外的值或者真實(shí)分布很復(fù)雜時(shí),模型可能產(chǎn)生異常的實(shí)例。
  • 模型目標(biāo)是數(shù)據(jù)合成,不是目標(biāo)檢測(cè),結(jié)果可能不是最優(yōu)。
    挑戰(zhàn)
    GAN通過潛在空間重建高維空間,在潛在空間保留了重要信息,它可能提升精度以超過原始空間。

5.1.3 可預(yù)測(cè)模型

主要用于時(shí)序數(shù)據(jù),使用時(shí)間窗口,將以前實(shí)例作為上下文,通過預(yù)測(cè)實(shí)例來學(xué)習(xí)特征表示。為了精準(zhǔn)預(yù)測(cè),需要表征學(xué)習(xí)窗口內(nèi)的時(shí)間序列和復(fù)發(fā)性依賴。正常實(shí)例服從依賴關(guān)系,異常數(shù)據(jù)違反依賴關(guān)系,是不可預(yù)測(cè)的。預(yù)測(cè)誤差可用于定義異常評(píng)分。
基于以下假設(shè):
正常實(shí)例在時(shí)序上比異常實(shí)例更可預(yù)測(cè)。
該技術(shù)常用于視頻異常檢測(cè),如已知x1,x2,..xt幀,任務(wù)是預(yù)測(cè)未來幀xt+1,使預(yù)測(cè)的t+1幀與實(shí)際幀更為相似。損失函數(shù)被定義為:

其中x^是預(yù)測(cè)的幀,x是實(shí)際幀,pred是MSE計(jì)算的幀預(yù)測(cè)損失,adv是對(duì)抗損失,它使用對(duì)抗性訓(xùn)練來增強(qiáng)圖像生成。
另一種研究方法是自回歸模型,模型假設(shè)序列中的每個(gè)元素都線性地依賴于之前的元素。如給定x和它的潛在空間表示z = ?? (x; Θ),自回歸模型因子p(z)被定義為:

K是潛在空間的維度。
可能加
優(yōu)點(diǎn)

  • 一些序列學(xué)習(xí)技術(shù)可用于異常檢測(cè)
  • 可學(xué)習(xí)不同類型的時(shí)間和空間依賴
    缺點(diǎn)
  • 只用于序列數(shù)據(jù)預(yù)測(cè)
  • 順序預(yù)測(cè)計(jì)算量大
  • 其基本目標(biāo)是序列預(yù)測(cè),不是異常檢測(cè),異常檢測(cè)結(jié)果可能不是最優(yōu)。
    挑戰(zhàn)
    該方法用于學(xué)習(xí)與時(shí)間相關(guān)的低維表征,一般用于上下文異常檢測(cè)。

5.1.4 自監(jiān)督分類器

通過建立自監(jiān)督分類器來學(xué)習(xí)表征,它基于傳統(tǒng)的交叉特征分析或特征模型,將與分類模型不一致的識(shí)別為異常。每個(gè)模型根據(jù)其他特征來預(yù)測(cè)一個(gè)特征。它評(píng)價(jià)的是特征內(nèi)部的一致性。
傳統(tǒng)方法多用于表格數(shù)據(jù),深度學(xué)習(xí)模型可用于圖像數(shù)據(jù),通過增強(qiáng)數(shù)據(jù)建立預(yù)測(cè)模型。
它基于以下假設(shè):
正常實(shí)例比異常實(shí)例對(duì)自監(jiān)督分類器更一致。
開始的方法通過對(duì)圖片的水平翻轉(zhuǎn),平移和旋轉(zhuǎn),在增強(qiáng)數(shù)據(jù)的基礎(chǔ)上訓(xùn)練多分類模型,將同一圖片及變換后的圖片作為一個(gè)類別。在推理時(shí),也用轉(zhuǎn)換組合進(jìn)行增強(qiáng),用所有增強(qiáng)后的實(shí)例做softmax再聚合來定義規(guī)范性得分。其損失函數(shù)定義為:

其中CE是交叉熵,其中 z???? = ?? (???? (x); Θ),其中T是變換,z是低維空間的表示,??是多分類器,yTj是轉(zhuǎn)換后合成類的OneHot編碼。這里使用了特征學(xué)習(xí)器??和類別學(xué)習(xí)器??。在這種自監(jiān)督多分類訓(xùn)練過程中,正常實(shí)例引起的梯度變化比離群值大得多,網(wǎng)絡(luò)更新也偏向正常值,正常值與分類器更為一致。評(píng)估異常使用三種策略:平均預(yù)測(cè)概率,最大預(yù)測(cè)概率,所有預(yù)測(cè)概率的負(fù)熵(此策略更好)。
優(yōu)點(diǎn)

  • 在無監(jiān)督半監(jiān)督情況下都能很好地工作,評(píng)分以內(nèi)在屬性為基礎(chǔ)。
    缺點(diǎn)
  • 只適用于圖像數(shù)據(jù)。
  • 異常分?jǐn)?shù)是在分類基礎(chǔ)上得出的,它可能不是最優(yōu)的。
    挑戰(zhàn)
    學(xué)到的常態(tài)性的低維表征有助于比原始的高維空間更好地檢測(cè)異常情況。由于自監(jiān)督分類器中呈現(xiàn)的異常和正常實(shí)例之間的一些內(nèi)在差異,這種方法也能夠在無監(jiān)督的環(huán)境下工作,對(duì)訓(xùn)練數(shù)據(jù)中的異常污染表現(xiàn)出良好的穩(wěn)健性。

5.2 依賴異常檢測(cè)的特征學(xué)習(xí)

深度學(xué)習(xí)和機(jī)器學(xué)習(xí)相結(jié)合
針對(duì)某一種異常優(yōu)化特征表示,可表示為:

與式2-3不同,這里的f是一種現(xiàn)有的異常評(píng)分,專門針對(duì)當(dāng)前目標(biāo) f 優(yōu)化特征表征,一般對(duì)異常的量度分為以下三類:

5.2.1 基于距離的度量

針對(duì)距離優(yōu)化特征表示。傳統(tǒng)的基于距離異常度量的主要問題是,無法在高維數(shù)據(jù)中有效工作,而基于深度學(xué)習(xí)的方法可在度量前將高維轉(zhuǎn)換到低維空間,很好地解決了這一問題。
它基于以下假設(shè):
異?,F(xiàn)象分布在離其最近的鄰居很遠(yuǎn)的地方,而正常實(shí)例位于密集的鄰域。
這種方法首先用于利用隨機(jī)鄰居距離優(yōu)化從超高維數(shù)據(jù)中學(xué)習(xí)低維表示。讓偽標(biāo)簽異常的近鄰遠(yuǎn)大于正常的近鄰。偽標(biāo)簽是由一些基本距離的異常檢測(cè)器生成的。
設(shè)S為X中的抽樣的數(shù)據(jù)子集,A為異常集合,N為正常集合,計(jì)算損失函數(shù)如下:

m是預(yù)先定義好的常量,使用了鉸鏈損失函數(shù),其目的是讓異常鄰居的距離至少要比正常距離大m。距離函數(shù)f是隨機(jī)距離,計(jì)算方法如下:

f用于表示實(shí)例的異常得分,也可以替換成其它距離計(jì)算方法。

優(yōu)點(diǎn)

  • 基于距離的方法在以前的工作中建立了很好的基礎(chǔ)。
  • 可解決傳統(tǒng)基于距離方法無法解決的高維問題。
  • 可以學(xué)習(xí)專門為距離優(yōu)化的表征。
    缺點(diǎn)
  • 基于距離的方法計(jì)算量較大
  • 被基于距離方法的弱點(diǎn)限制
    挑戰(zhàn)
    可對(duì)針對(duì)距離優(yōu)化表征,解決了高維問題,可利用少數(shù)標(biāo)記的異常實(shí)例學(xué)習(xí)常態(tài)表征。

5.2.2 基于分類的度量

學(xué)習(xí)為后續(xù)基于單類分類的異常檢測(cè)定制的特征表示。單分類是檢測(cè)測(cè)試實(shí)例是否符合訓(xùn)練數(shù)據(jù)。大多數(shù)單分類模型受支持向量機(jī)啟發(fā),此處的方法一般是將SVM和深度網(wǎng)絡(luò)相結(jié)合。
它基于以下假設(shè):
所有的正常實(shí)例都來自于一個(gè)類,并可用緊湊的模型來概括,異常情況并不符合這個(gè)模型。
具體思想是先用神經(jīng)網(wǎng)絡(luò)降維,然后從低維數(shù)據(jù)中用SVM學(xué)習(xí)一個(gè)超平面實(shí)現(xiàn)分類。其通用表述是:

其中r是邊界參數(shù),Θ是從高維向低維映射的網(wǎng)絡(luò)參數(shù),z是轉(zhuǎn)換后的低維向量,??是一個(gè)超參數(shù),它是訓(xùn)練集中異常分?jǐn)?shù)的上限,任何?? ? w?z?? > 0的實(shí)例都可能報(bào)告為異常點(diǎn)。該方法有兩個(gè)好處,可以用深度學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)更有表現(xiàn)力的特征用于下游任務(wù);另外有助于消除核函數(shù)中計(jì)算量大的配對(duì)距離計(jì)算。
另一條研究線路是研究SVDD(建立一個(gè)最小的超球體,以盡可能地包含所有正常數(shù)據(jù))的深度模型,其核心加數(shù)是中心c和半徑r,深度SVDD旨在利用神經(jīng)網(wǎng)絡(luò)將數(shù)據(jù)實(shí)例映射到最小體積的球體中,然后采用鉸鏈損失函數(shù)來保證球體中心和投影實(shí)例之間的余量,目標(biāo)可通過最小化以列損失函數(shù)共同訓(xùn)練:

一些改進(jìn)方法,可將SVDD應(yīng)用于半監(jiān)督學(xué)習(xí),其關(guān)鍵思想是最小化正常實(shí)例到中心的距離,同時(shí)最大化異常實(shí)體到中心的距離。
優(yōu)點(diǎn)

  • 基于單分類的方法已得到很好研究。
  • 表征學(xué)習(xí)和單分類相結(jié)合,可有目的的學(xué)到更好的表征。
  • 免于手工選擇核函數(shù)。
    缺點(diǎn)
  • 單模模型在正常類復(fù)雜分布的數(shù)據(jù)集上可能不起作用。
  • 檢測(cè)性能取決于單分類的異常量度。
    挑戰(zhàn)
    該方法可以利用少量標(biāo)記的正常和異常數(shù)據(jù)來學(xué)習(xí)更有效的模型描述,不僅可以檢測(cè)已知的異常,還可以檢測(cè)新的異常類別。

5.2.3 基于聚類的度量

這個(gè)挺好的
深度異常檢測(cè)旨在學(xué)習(xí)表征,使異常數(shù)據(jù)偏離正常數(shù)據(jù)表征空間中的聚類。大量研究致力于使用聚類定義異常,如判斷聚類的大小,與質(zhì)心的距離,質(zhì)心間的距離,以及成員間的距離,基于高斯混合模型的異常檢測(cè)也被納入該類別。
它基于以下假設(shè):
正常實(shí)例比異常實(shí)例對(duì)聚類有更強(qiáng)的依附性。
深度聚類專門為聚類算法定制特征,基于以下關(guān)鍵直覺:

  • 好的表征能學(xué)到更好聚類,好的聚類能為表征學(xué)習(xí)提供有效的監(jiān)督信號(hào)
  • 聚類算法基礎(chǔ)假設(shè)不同,為一種聚類算法優(yōu)化的表征不一定可用于其它算法
    深度聚類方法通常包括兩個(gè)模塊:在前向過程中進(jìn)行聚類,在后向過程中使用聚類分配作為偽類標(biāo)簽學(xué)習(xí)表征。其損失函數(shù)一般是:

lclu是聚類的損失函數(shù),y是偽標(biāo)簽,??是特征映射,f是聚類分配函數(shù),aux用于對(duì)表征施加額外的約束,比如基于自編碼器的重建損失,以學(xué)習(xí)到穩(wěn)健和保留局部結(jié)構(gòu)的表征。
由于聚類可能被損失污染,上述方法可應(yīng)用于半監(jiān)督環(huán)境,在無監(jiān)督環(huán)境中使用時(shí)還需要加一些額外約束條件。算法的目標(biāo)是聚類,在過程中可以產(chǎn)生基于聚類的表征,后續(xù)還有一些改進(jìn),以加強(qiáng)對(duì)異常的識(shí)別。
優(yōu)點(diǎn)

  • 可利用現(xiàn)有的聚類的方法和理論
  • 針對(duì)聚類的目標(biāo)專門優(yōu)化表征
  • 深度學(xué)習(xí)方法在處理復(fù)雜數(shù)據(jù)時(shí),更容易發(fā)現(xiàn)異常。
    缺點(diǎn)
  • 異常檢測(cè)的效果取決于聚類結(jié)果
  • 聚類可能被噪聲帶偏,反過來導(dǎo)致不太有效的表征。
    挑戰(zhàn)
    一些聚類算法對(duì)異常值很敏感,當(dāng)訓(xùn)練數(shù)據(jù)被異常值污染時(shí),深度聚類和隨后的異常檢測(cè)在很大程度上會(huì)被誤導(dǎo)。使用來自自動(dòng)編碼器重建錯(cuò)誤的手工特征的深度聚類可能有助于學(xué)習(xí)穩(wěn)健模型。

6. 端到端學(xué)習(xí)

以端到端方式學(xué)習(xí)標(biāo)量異常評(píng)分,不依賴現(xiàn)有的異常度量(以免受該方法的缺陷影響),底層框架可表示為:

它同時(shí)學(xué)習(xí)異常表征和異常得分或排名。和5.2中方法的差異是,5.2偏重結(jié)合現(xiàn)有的度量和深度學(xué)習(xí)方法,而端到端的學(xué)習(xí)通過重新設(shè)計(jì)損失函數(shù)直接學(xué)習(xí)。分為下列四個(gè)主要方法:

6.1 排序模型

這組方法直接學(xué)習(xí)異常排名,神經(jīng)網(wǎng)絡(luò)由序數(shù)變量驅(qū)動(dòng)。
它基于以下假設(shè):
存在一個(gè)可觀察的序數(shù)變量來捕捉某些數(shù)據(jù)的異常性。
在無監(jiān)督環(huán)境中,一個(gè)研究思路是設(shè)計(jì)基于序數(shù)回歸的損失函數(shù)來驅(qū)動(dòng)異常評(píng)分神經(jīng)網(wǎng)絡(luò)。設(shè)y為標(biāo)簽,y = {??1, ??2 } 且 ??1 > ??2,其目標(biāo)函數(shù)設(shè)置為:

此外l是MSE或MAE的損失函數(shù),當(dāng)x為異常時(shí)y是c1,當(dāng)x是正常實(shí)例時(shí)y是c2,此處的y是標(biāo)量,因此是一個(gè)標(biāo)量序數(shù)回歸問題。
在端到端的網(wǎng)絡(luò)中,是否正常(A/N,由一些現(xiàn)有的方法初始化,不斷迭代更新)也作為網(wǎng)絡(luò)的輸入,學(xué)習(xí)優(yōu)化異常分?jǐn)?shù),讓異常的數(shù)據(jù)去擬合更大的值,比如使用ResNet-50抽取圖像特征,然后在其后加入兩個(gè)全連接層來構(gòu)建異常評(píng)分。
在弱監(jiān)督環(huán)境中,假設(shè)有很少的有標(biāo)簽的異常,和大規(guī)模無監(jiān)督數(shù)據(jù),異常檢測(cè)被設(shè)置成成對(duì)關(guān)系預(yù)測(cè)任務(wù),以區(qū)分?jǐn)?shù)據(jù)為以下哪種情況:兩個(gè)異常,一個(gè)異常,沒有異常。設(shè)A為標(biāo)記異常集,U為無標(biāo)簽集,全部數(shù)據(jù)X由A和U組成。P為數(shù)據(jù)抽樣實(shí)例對(duì),y是序列變量,預(yù)定義有:??x???? x?? ?? > ??x???? x???? > ??x???? x?? ??,方法定義如下:

其中??是預(yù)測(cè)標(biāo)簽的方法,模型被優(yōu)化為:兩個(gè)異常點(diǎn)分?jǐn)?shù)大于一個(gè)異常點(diǎn),大于無異常點(diǎn)。在推理階段,每個(gè)實(shí)例與A和U分別配對(duì),以獲得異常得分。
另一種弱監(jiān)督學(xué)習(xí)方法,用于視頻監(jiān)督,已知某個(gè)視頻包含異常幀,但不知哪一幀異常,引入了基于多實(shí)例學(xué)習(xí)的排名模型,目標(biāo)是保證異常視頻(正袋)分?jǐn)?shù)大于正常視頻(負(fù)袋)分?jǐn)?shù)。使用鉸鏈損失:

其中x是抽樣的視頻片斷,Bp是正袋,Bn是負(fù)袋,損失函數(shù)第一項(xiàng)保證異常得分大于正常得分,后兩個(gè)是額外的優(yōu)化約束,第二個(gè)保證得分平衡性,最后一個(gè)保證異常稀疏性(異常幀不會(huì)太多)。
優(yōu)點(diǎn)

  • 異常得分可直接用損失函數(shù)優(yōu)化
  • 通過對(duì)正常/異常的相對(duì)關(guān)系替代對(duì)異常的定義
  • 建立在成熟的排名技術(shù)和理論上
    缺點(diǎn)
  • 無監(jiān)督方法效果明顯比半監(jiān)督差。
  • 可能不適用于未被標(biāo)記的異常情況。
    挑戰(zhàn)
  • 使用弱監(jiān)督可能學(xué)習(xí)到更具表現(xiàn)力的低維表征,上述兩種半監(jiān)督方法提供了利用粗粒度的標(biāo)簽的方法,端到端的模型可定義造成異常大的特征,提供了直接的異常解釋,另外,在有噪聲的條件下也能很好工作。

6.2 先驗(yàn)驅(qū)動(dòng)模型

基于概率的方法。
利用先驗(yàn)分布對(duì)異常分?jǐn)?shù)學(xué)習(xí)進(jìn)行編碼和驅(qū)動(dòng)??梢詫?duì)異常分?jǐn)?shù)的內(nèi)部模塊或?qū)W習(xí)輸出施加先驗(yàn)。
基于的假設(shè)
強(qiáng)加的先驗(yàn)捕捉了數(shù)據(jù)集的基本(非)正態(tài)性。
它的關(guān)鍵的直覺是,將一組序列數(shù)據(jù)作為輸入的代理,代理的正常行為可以通過其潛在的獎(jiǎng)勵(lì)函數(shù)來理解,如果代理給一個(gè)測(cè)試序列分配了低獎(jiǎng)勵(lì),那么該測(cè)試序列就會(huì)被識(shí)別為異常情況??杀硎鰹槿缦碌暮篁?yàn)優(yōu)化問題:

其中?? (Θ)是基于Θ的先驗(yàn)分布,S是一系列的觀測(cè)序列,?? (s|Θ)是潛在回報(bào)函數(shù),回報(bào)的倒數(shù)可作為異常評(píng)分,最大化上述公式就等于直接學(xué)習(xí)了異常評(píng)分。
經(jīng)驗(yàn)表明,各種真實(shí)數(shù)據(jù)集中的異常分?jǐn)?shù)都非常符合高斯分布,即假設(shè)正常實(shí)例的異常分?jǐn)?shù)聚在一起,而異常實(shí)例的異常分?jǐn)?shù)遠(yuǎn)離該聚類。研究使用高斯先驗(yàn)對(duì)異常分?jǐn)?shù)進(jìn)行編碼,并使分?jǐn)?shù)能夠直接優(yōu)化。
損失函數(shù)定義如下:

若夫中????和????分別是均值和方差,正常時(shí)y=0,異常時(shí)y=1,m是置信區(qū)間參數(shù)。該方法具有很好的可解釋性。

優(yōu)點(diǎn)

  • 異常得分可以在給定的先驗(yàn)中直接優(yōu)化
  • 可納入不同的先驗(yàn),使用不同的貝葉斯深度學(xué)習(xí)技術(shù)
  • 和其它方法相比,能學(xué)到更可解析的異常分?jǐn)?shù)
    缺點(diǎn)
  • 為場(chǎng)景設(shè)置合理的先驗(yàn)比較困難
  • 如果先驗(yàn)不能擬合分布,則模型效果會(huì)降低。
    挑戰(zhàn)
    檢測(cè)模型是由異常評(píng)分函數(shù)的先驗(yàn)分布驅(qū)動(dòng)的,在訓(xùn)練數(shù)據(jù)中存在異常污染的數(shù)據(jù)中工作良好。

6.3 Softmax似然模型

通過最大化訓(xùn)練數(shù)據(jù)中事件的可能性來學(xué)習(xí)異常分?jǐn)?shù)。由于正常實(shí)例更為常見,因此被認(rèn)為是高概率事件,異常為低概率事件,從而定義異常得分。
它基于以下假設(shè):
異常和正常實(shí)例分別是低概率事件和高概率事件。
使用直接對(duì)事件似然建模來學(xué)習(xí)異常分?jǐn)?shù)的思想。問題被定義為:

學(xué)習(xí)參數(shù)Θ,p是x發(fā)生的概率,使用最大似然函數(shù)計(jì)算。

其中??是異常評(píng)分函數(shù),它通過特征間的關(guān)系計(jì)算:

其中z是x的低維表征,i,j是特征編號(hào),w是交叉參數(shù),通過訓(xùn)練獲得。計(jì)算p時(shí)分母是正則化項(xiàng),計(jì)算量大,因此,也有使用NCE方法對(duì)其進(jìn)行優(yōu)化的。

優(yōu)點(diǎn)

  • 不同特征交互作用可被納入異常得分的學(xué)習(xí)過程中。
  • 異常得分忠實(shí)于特定異常交互的優(yōu)化(好像異常共性)。
    缺點(diǎn)
  • 特征多時(shí)計(jì)算量大
  • 異常得分依賴于負(fù)樣本的生成質(zhì)量
    挑戰(zhàn)
    這是一種基于特征交互作用的方法,為異質(zhì)數(shù)據(jù)源泉的數(shù)據(jù)集的低維表征提供了方法,能人不同數(shù)據(jù)源捕捉到更到正態(tài)/非正態(tài)信息,比傳統(tǒng)方法更好地檢測(cè)異常。

6.4 端到端的單分類器

基于GAN的方法。
訓(xùn)練單分類器以端到端方式學(xué)習(xí)實(shí)例是否正常,與5.2.2的區(qū)別在于它不依賴SVM等已有分類器。這種方法是GAN和單分類的結(jié)合,其核心是生成判別器,區(qū)分正常實(shí)例和生成的偽異常實(shí)例。
它基于以下假設(shè):
(i) 近似于異常的數(shù)據(jù)實(shí)例可以被有效地合成。
(ii) 所有的正常實(shí)例都可以由一個(gè)判別性的單模型來總結(jié)。

最初提出的方法ALOCC訓(xùn)練兩個(gè)深度學(xué)習(xí)網(wǎng)絡(luò),一個(gè)用于判別正常/異常實(shí)例,另一個(gè)被訓(xùn)練成扭曲正常值以生成異常實(shí)例(基于去噪AE)。方法定義為:

Px^是被高斯噪聲破壞的X的數(shù)據(jù)分布,它與AE的參數(shù)同時(shí)優(yōu)化。除了用AE造數(shù)據(jù),有的方法還從異常類中抽取數(shù)據(jù),另外還有一些生成破壞實(shí)例的其它方法,比如生成與正常實(shí)例互補(bǔ)的實(shí)例,生成邊界實(shí)例等。
優(yōu)點(diǎn)

  • 以端到端方式進(jìn)行對(duì)抗優(yōu)化
  • 以對(duì)抗學(xué)習(xí)和單類技術(shù)作為理論基礎(chǔ)
    缺點(diǎn)
  • 很難保證生成的參考實(shí)例與未知的異常情況非常相似。
  • GANs的不穩(wěn)定性可能導(dǎo)致生成的實(shí)例具有不同的質(zhì)量,從而導(dǎo)致異常分類性能不穩(wěn)定。
  • 僅限于半監(jiān)督的異常檢測(cè)場(chǎng)景。
    挑戰(zhàn)
    單分類器學(xué)習(xí)生成現(xiàn)實(shí)的邊緣/邊界實(shí)例,使學(xué)習(xí)富有表現(xiàn)力的低維規(guī)范性表征成為可能。

7. 算法和數(shù)據(jù)集

7.1 代表性算法
表-2列出了代表性的算法

對(duì)其總結(jié)如下:

  • 大多數(shù)方法在無監(jiān)督或半監(jiān)督模式下運(yùn)行
  • 深度學(xué)習(xí)技巧,如數(shù)據(jù)增強(qiáng)、dropout和預(yù)訓(xùn)練等尚未得到充分研究
  • 所使用的網(wǎng)絡(luò)架構(gòu)并不深,大多數(shù)方法的網(wǎng)絡(luò)層數(shù)不超過5層
  • (leaky) ReLU是最常用的激活函數(shù)
  • 不同的骨干網(wǎng)可以用來處理不同類型的輸入數(shù)據(jù)。
    多數(shù)算法的源代碼都是公開的,附錄A1還列出的源碼地址。

7.2 真實(shí)異常的數(shù)據(jù)集

表-3列出了可用數(shù)據(jù)集,可從 https://git.io/JTs93 獲取

8. 總結(jié)和未來的機(jī)會(huì)

8.1 探索異常監(jiān)控信號(hào)

探索異常信號(hào)是深度異常檢測(cè)的關(guān)鍵,以獲取異常評(píng)分,及正常/異常。很多方法用以對(duì)探測(cè)無監(jiān)督或自監(jiān)督的數(shù)據(jù)。5.1中的方法并未針對(duì)異常檢測(cè)優(yōu)化;5.2中方法雖然包含優(yōu)化,但對(duì)數(shù)據(jù)分布進(jìn)行了假設(shè);另外,還有使用領(lǐng)域知識(shí),實(shí)現(xiàn)知識(shí)驅(qū)動(dòng)的異常檢測(cè)的方法。

8.2 深度弱監(jiān)督異常檢測(cè)

弱監(jiān)督數(shù)據(jù)一般指不完全,不精確,不準(zhǔn)確(如粗粒度)標(biāo)記的異常數(shù)據(jù),它們往往在現(xiàn)實(shí)中是可得的,并可以提升模型效果。但由于異??赡苁歉叨犬愘|(zhì)性的,可能存在未知,新異常:超出了給定異常示例,最近研究發(fā)現(xiàn),深度學(xué)習(xí)往往能學(xué)到超出給定異常示例范圍的異常。
當(dāng)然,檢測(cè)已知異常也非常重要 ,異??赡軄碜圆煌漠惓n悾虼吮憩F(xiàn)出完全不同的特征。重要的是探索利用少量標(biāo)記數(shù)據(jù)來學(xué)習(xí)更強(qiáng)大的具有更深體系結(jié)構(gòu)的檢測(cè)模型的可能性。

8.3 大規(guī)模的正常學(xué)習(xí)

大規(guī)模無監(jiān)督,自監(jiān)督表示學(xué)習(xí)在實(shí)現(xiàn)下游學(xué)習(xí)任務(wù)方面取得了巨大成功。在很難獲得足夠的標(biāo)記數(shù)據(jù)的情況下使用。首先在無監(jiān)督/自監(jiān)督模式下從大規(guī)模無標(biāo)記數(shù)據(jù)中學(xué)習(xí)可轉(zhuǎn)移的預(yù)訓(xùn)練表示模型,然后在半監(jiān)督模式下微調(diào)檢測(cè)模型。
另外,數(shù)據(jù)可能包含噪聲,因此,魯棒性在預(yù)訓(xùn)練建模和微調(diào)階段都很重要。此外,不同領(lǐng)域的異常和數(shù)據(jù)集差異很大,因此大規(guī)模的常態(tài)性學(xué)習(xí)可能在特定領(lǐng)域進(jìn)行。

8.4 復(fù)雜異常的深度檢測(cè)

目前大多數(shù)深度異常檢測(cè)方法都集中在點(diǎn)異常上,表現(xiàn)出比傳統(tǒng)方法更好的性能。然而,對(duì)條件異常,集體異常的深度模型研究較少,而處理復(fù)雜依賴數(shù)據(jù)是深度模型的優(yōu)勢(shì),也是未來重要的機(jī)會(huì)。

8.5 可解釋和可操作的深度異常檢測(cè)

目前異常檢測(cè)主要著重優(yōu)化精度,對(duì)可解釋性關(guān)注較少,導(dǎo)致解釋性和可行動(dòng)性較弱??衫蒙疃犬惓z測(cè)模型探索深度模型解釋和可操作知識(shí)發(fā)現(xiàn)的方法。

8.6 新穎的應(yīng)用程序和設(shè)置

已經(jīng)有一些令人興奮的新興研究應(yīng)用和問題設(shè)置,其中可能有一些擴(kuò)展深度檢測(cè)方法的重要機(jī)會(huì)。以及一些強(qiáng)相關(guān)的領(lǐng)域:比如OOD檢測(cè)(分布外檢測(cè)),好奇心學(xué)習(xí),異常可能存在的依賴特征,檢測(cè)對(duì)抗實(shí)例。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容