91色老久久精品偷偷,久久伊人青青,日韩乐播AV小说

英文題目：Deep Learning for Anomaly Detection: A Review
中文題目：基于深度學(xué)習(xí)的異常檢測(cè)綜述
論文地址：https://arxiv.org/pdf/2007.02500.pdf
領(lǐng)域：異常檢測(cè)，深度學(xué)習(xí)
發(fā)表時(shí)間：2020.01
作者：Guansong Pang，阿德萊德大學(xué)
出處：ACM Comput. Surv.
被引量：697（谷歌學(xué)術(shù)）
代碼和數(shù)據(jù)：見論文附錄A
閱讀時(shí)間：2022.11.05
全文翻譯：https://blog.csdn.net/pingguolou/article/details/117421638

讀后感

本篇解讀的論文發(fā)表于2020年，主要介紹基于深度學(xué)習(xí)的異常檢測(cè)技術(shù)，可作為2009年發(fā)表的那篇高引的傳統(tǒng)異常檢測(cè)綜述的互補(bǔ)。前三章主要是相關(guān)問題和挑戰(zhàn)（1-3章）。從第四章開始總結(jié)了近年來深度異常檢測(cè)的具體方法，共3大分類（4-6章），11個(gè)小分類。分別對(duì)關(guān)鍵直覺，目標(biāo)函數(shù)，基本假設(shè)，優(yōu)勢(shì)劣勢(shì)，及應(yīng)對(duì)挑戰(zhàn)方法進(jìn)行討論。最后討論了未來的機(jī)會(huì)，還提供了大量文獻(xiàn)列表和訓(xùn)練數(shù)據(jù)集，實(shí)用性強(qiáng)。本文旨在做一個(gè)二十分鐘左右的簡(jiǎn)單的導(dǎo)讀。

1. 介紹

異常檢測(cè)被定義為：檢測(cè)明顯偏離大多數(shù)數(shù)據(jù)的數(shù)據(jù)實(shí)例。早期技術(shù)涉及：數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺和統(tǒng)計(jì)學(xué)，近年來深度學(xué)習(xí)在多維數(shù)據(jù)、時(shí)間數(shù)據(jù)、空間數(shù)據(jù)和圖數(shù)據(jù)都表現(xiàn)出巨大提升，深度學(xué)習(xí)異常檢測(cè)是使用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特征表征和異常得分。

本篇主要貢獻(xiàn)如下：

問題和挑戰(zhàn)：提出問題的復(fù)雜性和挑戰(zhàn)。
歸類和方法：將目前深度學(xué)習(xí)異常檢測(cè)分為3大類11小類，并逐一介紹。
文獻(xiàn)回顧：回顧了大量會(huì)議和期刊的文獻(xiàn)，通過關(guān)鍵直覺，目標(biāo)函數(shù)，基本假設(shè)，優(yōu)勢(shì)劣勢(shì)，挑戰(zhàn)幾個(gè)方面進(jìn)行分析。
未來的機(jī)會(huì)：討論了未來機(jī)會(huì)和挑戰(zhàn)
源碼和數(shù)據(jù)集：收集了大量源代碼和數(shù)據(jù)集。

2. 問題復(fù)雜性和挑戰(zhàn)

2.1 復(fù)雜性

異常檢測(cè)問題的復(fù)雜性主要包含以下幾方面：

不可知性：異常在發(fā)生前常是未知的，且每種異常表現(xiàn)可能不同（異質(zhì)性）。
稀有性和類別不平衡：異常數(shù)據(jù)占比小，難以收集，標(biāo)注；正常與異常分布不均衡。
異常類型多樣：點(diǎn)異常，上下文異常（只在特點(diǎn)背景下才是異常），集體數(shù)據(jù)異常（整體是異常的，但其中點(diǎn)可能正常）。

2.2 主要挑戰(zhàn)

下面問題大多未被很好解決，而深度學(xué)習(xí)方法可能發(fā)揮作用。

CH1 異常檢測(cè)召回率（查全率）低：分布不均衡引發(fā)召回率低，需要盡量減少誤報(bào)，同時(shí)增加召回率。
CH2 高維和非獨(dú)立數(shù)據(jù)的異常檢測(cè)：對(duì)于高維空間，常先把特征映射到低維空間，再檢測(cè)，如何在映射中保留足夠信息供下游任務(wù)使用；另外還需要處理時(shí)間、空間、圖等相互依賴的關(guān)系。
CH3 正常和異常數(shù)據(jù)的使用效率：異常數(shù)據(jù)很難標(biāo)記，更多時(shí)間要處理無監(jiān)督和半監(jiān)督數(shù)據(jù)，無監(jiān)督學(xué)習(xí)往往需要依賴對(duì)數(shù)據(jù)分布的假設(shè)。另外，弱監(jiān)督是指只有部分不完整的異常標(biāo)簽（不包含所有異常類別），且可能是不精確的。
CH4 抗噪聲異常檢測(cè)：需要處理標(biāo)注錯(cuò)誤的實(shí)例（即噪聲）與異常數(shù)據(jù)，更好地利用標(biāo)注數(shù)據(jù)。
CH5 檢測(cè)復(fù)雜的異常：上下文異常和集體異常需要進(jìn)一步處理；另外，還需要對(duì)多個(gè)異質(zhì)數(shù)據(jù)源的異常，如：多維數(shù)據(jù)、圖像、文本、音頻等數(shù)據(jù)（關(guān)聯(lián)異常）。
CH6 異常的解釋：在有些領(lǐng)域不能把模型作為黑盒使用，它可能帶來對(duì)少數(shù)群體的偏見（比如種族偏見），需要利用解釋算法提供決策的原因，以便糾正偏見。尤其對(duì)于復(fù)雜的模型。

相對(duì)來說深度方法能進(jìn)行端到端的優(yōu)化，且能學(xué)到專門的表征（隱藏層輸出），提升數(shù)據(jù)利用率，能處理更復(fù)雜的數(shù)據(jù)（如文本，視頻，圖像等），目前已有成熟的多種框架，相對(duì)傳統(tǒng)方法更有優(yōu)勢(shì)。

3. 使用深度學(xué)習(xí)異常檢測(cè)

3.1 預(yù)備工作

跳過一些神經(jīng)網(wǎng)絡(luò)的基本原理介紹。
深度網(wǎng)絡(luò)可學(xué)習(xí)更好地表征數(shù)據(jù)。設(shè)為X原始空間中的數(shù)據(jù)集，學(xué)習(xí)一個(gè)映射X->Z，將其映射到表示空間，在表示空間中更容易區(qū)分正常和異常數(shù)據(jù)。異常檢測(cè)目標(biāo)是學(xué)習(xí)映射函數(shù)或者學(xué)習(xí)異常得分函數(shù)（異常得分越高，越可能異常）。

3.2 深度異常檢測(cè)分類

文章將深度學(xué)習(xí)異常檢測(cè)分為3大類11小類。

三大類分別是：提取特征的學(xué)習(xí)(一個(gè)子類），標(biāo)準(zhǔn)化的特征表示（兩個(gè)小類，七個(gè)子類），端到端的學(xué)習(xí)（四個(gè)子類）。

4. 深度學(xué)習(xí)的特征提取

該方法從高維提取低維數(shù)據(jù)表示z = ?? (x;Θ)，再用于下游的異常檢測(cè)，上下游相互獨(dú)立。
與傳統(tǒng)的PCA和隨機(jī)投影相比，深度學(xué)習(xí)在提取富含語(yǔ)義的特征和非線性特征關(guān)系方面表現(xiàn)出更強(qiáng)的能力。
它基于假設(shè)：
深度學(xué)習(xí)模型提取的表征保留了有助于將區(qū)分異常的信息
比如使用AlexNet, VGG, ResNet圖像處理框架提圖片低維特征，然后進(jìn)一步代入下游任務(wù)，比如把視頻拆成多幀圖像，檢測(cè)其中的異常幀。它需要特征轉(zhuǎn)換器足夠強(qiáng)大，且在不同任務(wù)中盡量是通用的。

優(yōu)點(diǎn)

可使用現(xiàn)成的預(yù)訓(xùn)練模型和異常檢測(cè)方法（SVM）。
網(wǎng)絡(luò)提供了比線性提取器更強(qiáng)的降維功能。
容易實(shí)現(xiàn)。
缺點(diǎn)
完全分離的特征提取和異常評(píng)分可能導(dǎo)致次優(yōu)結(jié)果。
預(yù)訓(xùn)練的深度學(xué)習(xí)模型往往只能針對(duì)特定類型數(shù)據(jù)。
挑戰(zhàn)
將高維投射到低維空間，使現(xiàn)有的異常檢測(cè)方法能夠在更簡(jiǎn)單的數(shù)據(jù)空間中工作，常有助于揭示隱藏的異?，F(xiàn)象，并減少假陽(yáng)性。而在映射過程中可能丟失異常相關(guān)的重要信息。另外，利用深度網(wǎng)絡(luò)可以學(xué)習(xí)從更豐富的數(shù)據(jù)中提取特征。

5. 學(xué)習(xí)特征的通用表示

結(jié)合特征學(xué)習(xí)和異常評(píng)分，一般分為以下兩類：

5.1 通用的標(biāo)準(zhǔn)化特征學(xué)習(xí)

模型就可以直接給出異常得分，通常是其它算法的附產(chǎn)品，未針對(duì)異常檢測(cè)優(yōu)化
通過使用通用的目標(biāo)來學(xué)習(xí)實(shí)例的表征，目標(biāo)函數(shù)往往不是為檢測(cè)設(shè)計(jì)，但可用于提升異常檢測(cè)效果。它可以捕捉數(shù)據(jù)中的基本規(guī)律。

其中Θ和W是訓(xùn)練得到的模型參數(shù)，??是特征空間的映射，??用于處理具體任務(wù)，l是損失函數(shù)，s是異常評(píng)分，f是評(píng)分函數(shù)。具體又分為以下4個(gè)子類別：

5.1.1 自編碼器AE

一種廣泛使用的數(shù)據(jù)壓縮和降維技術(shù)，低維數(shù)據(jù)表征強(qiáng)制學(xué)習(xí)數(shù)據(jù)的規(guī)律，以最小化重建誤差。異常數(shù)據(jù)很難從低維表征中重建，因此有很大的重建誤差，以此區(qū)分正常和異常。
它基于以下假設(shè)：
與異常情況相比，正常實(shí)例可以更好地從壓縮的空間中進(jìn)行重組。
一個(gè)AE由一個(gè)編碼網(wǎng)絡(luò)和一個(gè)解碼網(wǎng)絡(luò)組成，編碼器將原始數(shù)據(jù)映射到低維特征空間，解碼器則試圖從投影的低維空間恢復(fù)數(shù)據(jù)，這兩個(gè)網(wǎng)絡(luò)的參數(shù)是用一個(gè)重建損失函數(shù)來學(xué)習(xí)的。模型會(huì)盡量保留與主導(dǎo)實(shí)例（即正常數(shù)據(jù)）相關(guān)的信息，而異常數(shù)據(jù)由于偏離正常數(shù)據(jù)，所以損失更大，也可將損失作為異常得分。

其中e表示編碼，d表示解碼，z是壓縮后的數(shù)據(jù)x^為重建數(shù)據(jù)，s為異常評(píng)分。
之后還提出了AE的更多改進(jìn)版本，如sparse AE, denoising AE, contractive AE等。AE除了處理表格數(shù)據(jù)以外，也被用于序列數(shù)據(jù)圖數(shù)據(jù)圖像視頻的異常檢測(cè)，如CNN-AE，LSTM-AE，GCN-AE等，這些方法將編解碼輸入到處理流程中；也有先處理AE，再處理其它網(wǎng)絡(luò)如RNN的方法。

優(yōu)點(diǎn)

方法直接，通用
可使用不同類型AE變體
缺點(diǎn)
可能由于訓(xùn)練集中不常見的規(guī)律和異常存在偏差。
目標(biāo)是數(shù)據(jù)壓縮，而非異常檢測(cè)，沒有對(duì)異常檢測(cè)進(jìn)行優(yōu)化。
挑戰(zhàn)
AE可以和不同網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合，檢測(cè)高維數(shù)據(jù)異常及復(fù)雜數(shù)據(jù)，學(xué)到的表征數(shù)據(jù)可能優(yōu)于手工提取數(shù)據(jù)。AE容易受到訓(xùn)練中數(shù)據(jù)噪聲的影響，導(dǎo)致過擬和及重建錯(cuò)誤，RPCA（假設(shè)誤差是稀疏的PCA）思想也被用于改進(jìn)AE。

5.1.2 生成對(duì)抗網(wǎng)絡(luò)GAN

基于生成對(duì)抗網(wǎng)絡(luò)的異常檢測(cè)也被廣泛使用，這種方法主要通過生成網(wǎng)絡(luò)G學(xué)習(xí)潛在的特征空間，從而捕捉數(shù)據(jù)的規(guī)則。真實(shí)實(shí)例和生成實(shí)例的殘差被定義為異常得分。
它基于的假設(shè)是：
正常數(shù)據(jù)比異常數(shù)據(jù)，通過生成網(wǎng)絡(luò)生成數(shù)據(jù)的效果更好。
AnoGAN是早期的方法，首先用常規(guī)目標(biāo)訓(xùn)練GAN：

其中G是生成模型，D是判別模型，V是博弈的價(jià)值函數(shù)，其損失函數(shù)由兩部分組成，一部分是殘差損失，用于衡量生成數(shù)據(jù)的效果：

另一部分是基于特征匹配的損失：

其中??是迭代次數(shù)的索引號(hào)，h是隱藏層的輸出。z從一個(gè)隨機(jī)采樣開始，隨著迭代逐步優(yōu)化。異常得分被定義為最后一步得出的z構(gòu)造出的數(shù)據(jù)和x的相似性：

??為超參數(shù)。
AnoGAN的主要問題是Z的迭代搜索效率低，后來又提出了BEGAN，快速AnoGAN，ALAD，GANomaly 進(jìn)一步優(yōu)化，另外還有Wasserstein GAN，Cycle GAN等。

優(yōu)點(diǎn)

GAN生成能力強(qiáng)，尤其在圖像上能檢測(cè)出從空間重構(gòu)的異常實(shí)例。
大量基于GAN的模型可用于特征檢測(cè)。
缺點(diǎn)
基于GAN的模型訓(xùn)練困難較大，可能無法收斂或模型崩潰。
當(dāng)訓(xùn)練數(shù)據(jù)包含意外的值或者真實(shí)分布很復(fù)雜時(shí)，模型可能產(chǎn)生異常的實(shí)例。
模型目標(biāo)是數(shù)據(jù)合成，不是目標(biāo)檢測(cè)，結(jié)果可能不是最優(yōu)。
挑戰(zhàn)
GAN通過潛在空間重建高維空間，在潛在空間保留了重要信息，它可能提升精度以超過原始空間。

5.1.3 可預(yù)測(cè)模型

主要用于時(shí)序數(shù)據(jù)，使用時(shí)間窗口，將以前實(shí)例作為上下文，通過預(yù)測(cè)實(shí)例來學(xué)習(xí)特征表示。為了精準(zhǔn)預(yù)測(cè)，需要表征學(xué)習(xí)窗口內(nèi)的時(shí)間序列和復(fù)發(fā)性依賴。正常實(shí)例服從依賴關(guān)系，異常數(shù)據(jù)違反依賴關(guān)系，是不可預(yù)測(cè)的。預(yù)測(cè)誤差可用于定義異常評(píng)分。
基于以下假設(shè)：
正常實(shí)例在時(shí)序上比異常實(shí)例更可預(yù)測(cè)。
該技術(shù)常用于視頻異常檢測(cè)，如已知x1,x2,..xt幀，任務(wù)是預(yù)測(cè)未來幀xt+1，使預(yù)測(cè)的t+1幀與實(shí)際幀更為相似。損失函數(shù)被定義為：

其中x^是預(yù)測(cè)的幀，x是實(shí)際幀，pred是MSE計(jì)算的幀預(yù)測(cè)損失，adv是對(duì)抗損失，它使用對(duì)抗性訓(xùn)練來增強(qiáng)圖像生成。
另一種研究方法是自回歸模型，模型假設(shè)序列中的每個(gè)元素都線性地依賴于之前的元素。如給定x和它的潛在空間表示z = ?? (x; Θ)，自回歸模型因子p(z)被定義為：

K是潛在空間的維度。
可能加
優(yōu)點(diǎn)

一些序列學(xué)習(xí)技術(shù)可用于異常檢測(cè)
可學(xué)習(xí)不同類型的時(shí)間和空間依賴
缺點(diǎn)
只用于序列數(shù)據(jù)預(yù)測(cè)
順序預(yù)測(cè)計(jì)算量大
其基本目標(biāo)是序列預(yù)測(cè)，不是異常檢測(cè)，異常檢測(cè)結(jié)果可能不是最優(yōu)。
挑戰(zhàn)
該方法用于學(xué)習(xí)與時(shí)間相關(guān)的低維表征，一般用于上下文異常檢測(cè)。

5.1.4 自監(jiān)督分類器

通過建立自監(jiān)督分類器來學(xué)習(xí)表征，它基于傳統(tǒng)的交叉特征分析或特征模型，將與分類模型不一致的識(shí)別為異常。每個(gè)模型根據(jù)其他特征來預(yù)測(cè)一個(gè)特征。它評(píng)價(jià)的是特征內(nèi)部的一致性。
傳統(tǒng)方法多用于表格數(shù)據(jù)，深度學(xué)習(xí)模型可用于圖像數(shù)據(jù)，通過增強(qiáng)數(shù)據(jù)建立預(yù)測(cè)模型。
它基于以下假設(shè)：
正常實(shí)例比異常實(shí)例對(duì)自監(jiān)督分類器更一致。
開始的方法通過對(duì)圖片的水平翻轉(zhuǎn)，平移和旋轉(zhuǎn)，在增強(qiáng)數(shù)據(jù)的基礎(chǔ)上訓(xùn)練多分類模型，將同一圖片及變換后的圖片作為一個(gè)類別。在推理時(shí)，也用轉(zhuǎn)換組合進(jìn)行增強(qiáng)，用所有增強(qiáng)后的實(shí)例做softmax再聚合來定義規(guī)范性得分。其損失函數(shù)定義為：

其中CE是交叉熵，其中 z???? = ?? (???? (x); Θ)，其中T是變換，z是低維空間的表示，??是多分類器，yTj是轉(zhuǎn)換后合成類的OneHot編碼。這里使用了特征學(xué)習(xí)器??和類別學(xué)習(xí)器??。在這種自監(jiān)督多分類訓(xùn)練過程中，正常實(shí)例引起的梯度變化比離群值大得多，網(wǎng)絡(luò)更新也偏向正常值，正常值與分類器更為一致。評(píng)估異常使用三種策略：平均預(yù)測(cè)概率，最大預(yù)測(cè)概率，所有預(yù)測(cè)概率的負(fù)熵（此策略更好）。
優(yōu)點(diǎn)

在無監(jiān)督半監(jiān)督情況下都能很好地工作，評(píng)分以內(nèi)在屬性為基礎(chǔ)。
缺點(diǎn)
只適用于圖像數(shù)據(jù)。
異常分?jǐn)?shù)是在分類基礎(chǔ)上得出的，它可能不是最優(yōu)的。
挑戰(zhàn)
學(xué)到的常態(tài)性的低維表征有助于比原始的高維空間更好地檢測(cè)異常情況。由于自監(jiān)督分類器中呈現(xiàn)的異常和正常實(shí)例之間的一些內(nèi)在差異，這種方法也能夠在無監(jiān)督的環(huán)境下工作，對(duì)訓(xùn)練數(shù)據(jù)中的異常污染表現(xiàn)出良好的穩(wěn)健性。

5.2 依賴異常檢測(cè)的特征學(xué)習(xí)

深度學(xué)習(xí)和機(jī)器學(xué)習(xí)相結(jié)合
針對(duì)某一種異常優(yōu)化特征表示，可表示為：

與式2-3不同，這里的f是一種現(xiàn)有的異常評(píng)分，專門針對(duì)當(dāng)前目標(biāo) f 優(yōu)化特征表征，一般對(duì)異常的量度分為以下三類：

5.2.1 基于距離的度量

針對(duì)距離優(yōu)化特征表示。傳統(tǒng)的基于距離異常度量的主要問題是，無法在高維數(shù)據(jù)中有效工作，而基于深度學(xué)習(xí)的方法可在度量前將高維轉(zhuǎn)換到低維空間，很好地解決了這一問題。
它基于以下假設(shè)：
異?，F(xiàn)象分布在離其最近的鄰居很遠(yuǎn)的地方，而正常實(shí)例位于密集的鄰域。
這種方法首先用于利用隨機(jī)鄰居距離優(yōu)化從超高維數(shù)據(jù)中學(xué)習(xí)低維表示。讓偽標(biāo)簽異常的近鄰遠(yuǎn)大于正常的近鄰。偽標(biāo)簽是由一些基本距離的異常檢測(cè)器生成的。
設(shè)S為X中的抽樣的數(shù)據(jù)子集，A為異常集合，N為正常集合，計(jì)算損失函數(shù)如下：

m是預(yù)先定義好的常量，使用了鉸鏈損失函數(shù)，其目的是讓異常鄰居的距離至少要比正常距離大m。距離函數(shù)f是隨機(jī)距離，計(jì)算方法如下：

f用于表示實(shí)例的異常得分，也可以替換成其它距離計(jì)算方法。

優(yōu)點(diǎn)

基于距離的方法在以前的工作中建立了很好的基礎(chǔ)。
可解決傳統(tǒng)基于距離方法無法解決的高維問題。
可以學(xué)習(xí)專門為距離優(yōu)化的表征。
缺點(diǎn)
基于距離的方法計(jì)算量較大
被基于距離方法的弱點(diǎn)限制
挑戰(zhàn)
可對(duì)針對(duì)距離優(yōu)化表征，解決了高維問題，可利用少數(shù)標(biāo)記的異常實(shí)例學(xué)習(xí)常態(tài)表征。

5.2.2 基于分類的度量

學(xué)習(xí)為后續(xù)基于單類分類的異常檢測(cè)定制的特征表示。單分類是檢測(cè)測(cè)試實(shí)例是否符合訓(xùn)練數(shù)據(jù)。大多數(shù)單分類模型受支持向量機(jī)啟發(fā)，此處的方法一般是將SVM和深度網(wǎng)絡(luò)相結(jié)合。
它基于以下假設(shè)：
所有的正常實(shí)例都來自于一個(gè)類，并可用緊湊的模型來概括，異常情況并不符合這個(gè)模型。
具體思想是先用神經(jīng)網(wǎng)絡(luò)降維，然后從低維數(shù)據(jù)中用SVM學(xué)習(xí)一個(gè)超平面實(shí)現(xiàn)分類。其通用表述是：

其中r是邊界參數(shù)，Θ是從高維向低維映射的網(wǎng)絡(luò)參數(shù)，z是轉(zhuǎn)換后的低維向量，??是一個(gè)超參數(shù)，它是訓(xùn)練集中異常分?jǐn)?shù)的上限，任何?? ? w?z?? > 0的實(shí)例都可能報(bào)告為異常點(diǎn)。該方法有兩個(gè)好處，可以用深度學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)更有表現(xiàn)力的特征用于下游任務(wù)；另外有助于消除核函數(shù)中計(jì)算量大的配對(duì)距離計(jì)算。
另一條研究線路是研究SVDD（建立一個(gè)最小的超球體，以盡可能地包含所有正常數(shù)據(jù)）的深度模型，其核心加數(shù)是中心c和半徑r，深度SVDD旨在利用神經(jīng)網(wǎng)絡(luò)將數(shù)據(jù)實(shí)例映射到最小體積的球體中，然后采用鉸鏈損失函數(shù)來保證球體中心和投影實(shí)例之間的余量，目標(biāo)可通過最小化以列損失函數(shù)共同訓(xùn)練：

一些改進(jìn)方法，可將SVDD應(yīng)用于半監(jiān)督學(xué)習(xí)，其關(guān)鍵思想是最小化正常實(shí)例到中心的距離，同時(shí)最大化異常實(shí)體到中心的距離。
優(yōu)點(diǎn)

基于單分類的方法已得到很好研究。
表征學(xué)習(xí)和單分類相結(jié)合，可有目的的學(xué)到更好的表征。
免于手工選擇核函數(shù)。
缺點(diǎn)
單模模型在正常類復(fù)雜分布的數(shù)據(jù)集上可能不起作用。
檢測(cè)性能取決于單分類的異常量度。
挑戰(zhàn)
該方法可以利用少量標(biāo)記的正常和異常數(shù)據(jù)來學(xué)習(xí)更有效的模型描述，不僅可以檢測(cè)已知的異常，還可以檢測(cè)新的異常類別。

5.2.3 基于聚類的度量

這個(gè)挺好的
深度異常檢測(cè)旨在學(xué)習(xí)表征，使異常數(shù)據(jù)偏離正常數(shù)據(jù)表征空間中的聚類。大量研究致力于使用聚類定義異常，如判斷聚類的大小，與質(zhì)心的距離，質(zhì)心間的距離，以及成員間的距離，基于高斯混合模型的異常檢測(cè)也被納入該類別。
它基于以下假設(shè)：
正常實(shí)例比異常實(shí)例對(duì)聚類有更強(qiáng)的依附性。
深度聚類專門為聚類算法定制特征，基于以下關(guān)鍵直覺：

好的表征能學(xué)到更好聚類，好的聚類能為表征學(xué)習(xí)提供有效的監(jiān)督信號(hào)
聚類算法基礎(chǔ)假設(shè)不同，為一種聚類算法優(yōu)化的表征不一定可用于其它算法
深度聚類方法通常包括兩個(gè)模塊：在前向過程中進(jìn)行聚類，在后向過程中使用聚類分配作為偽類標(biāo)簽學(xué)習(xí)表征。其損失函數(shù)一般是：

lclu是聚類的損失函數(shù)，y是偽標(biāo)簽，??是特征映射，f是聚類分配函數(shù)，aux用于對(duì)表征施加額外的約束，比如基于自編碼器的重建損失，以學(xué)習(xí)到穩(wěn)健和保留局部結(jié)構(gòu)的表征。
由于聚類可能被損失污染，上述方法可應(yīng)用于半監(jiān)督環(huán)境，在無監(jiān)督環(huán)境中使用時(shí)還需要加一些額外約束條件。算法的目標(biāo)是聚類，在過程中可以產(chǎn)生基于聚類的表征，后續(xù)還有一些改進(jìn)，以加強(qiáng)對(duì)異常的識(shí)別。
優(yōu)點(diǎn)

可利用現(xiàn)有的聚類的方法和理論
針對(duì)聚類的目標(biāo)專門優(yōu)化表征
深度學(xué)習(xí)方法在處理復(fù)雜數(shù)據(jù)時(shí)，更容易發(fā)現(xiàn)異常。
缺點(diǎn)
異常檢測(cè)的效果取決于聚類結(jié)果
聚類可能被噪聲帶偏，反過來導(dǎo)致不太有效的表征。
挑戰(zhàn)
一些聚類算法對(duì)異常值很敏感，當(dāng)訓(xùn)練數(shù)據(jù)被異常值污染時(shí)，深度聚類和隨后的異常檢測(cè)在很大程度上會(huì)被誤導(dǎo)。使用來自自動(dòng)編碼器重建錯(cuò)誤的手工特征的深度聚類可能有助于學(xué)習(xí)穩(wěn)健模型。

6. 端到端學(xué)習(xí)

以端到端方式學(xué)習(xí)標(biāo)量異常評(píng)分，不依賴現(xiàn)有的異常度量（以免受該方法的缺陷影響），底層框架可表示為：

它同時(shí)學(xué)習(xí)異常表征和異常得分或排名。和5.2中方法的差異是，5.2偏重結(jié)合現(xiàn)有的度量和深度學(xué)習(xí)方法，而端到端的學(xué)習(xí)通過重新設(shè)計(jì)損失函數(shù)直接學(xué)習(xí)。分為下列四個(gè)主要方法：

6.1 排序模型

這組方法直接學(xué)習(xí)異常排名，神經(jīng)網(wǎng)絡(luò)由序數(shù)變量驅(qū)動(dòng)。
它基于以下假設(shè)：
存在一個(gè)可觀察的序數(shù)變量來捕捉某些數(shù)據(jù)的異常性。
在無監(jiān)督環(huán)境中，一個(gè)研究思路是設(shè)計(jì)基于序數(shù)回歸的損失函數(shù)來驅(qū)動(dòng)異常評(píng)分神經(jīng)網(wǎng)絡(luò)。設(shè)y為標(biāo)簽，y = {??1, ??2 } 且 ??1 > ??2，其目標(biāo)函數(shù)設(shè)置為：

此外l是MSE或MAE的損失函數(shù)，當(dāng)x為異常時(shí)y是c1，當(dāng)x是正常實(shí)例時(shí)y是c2，此處的y是標(biāo)量，因此是一個(gè)標(biāo)量序數(shù)回歸問題。
在端到端的網(wǎng)絡(luò)中，是否正常(A/N，由一些現(xiàn)有的方法初始化，不斷迭代更新)也作為網(wǎng)絡(luò)的輸入，學(xué)習(xí)優(yōu)化異常分?jǐn)?shù)，讓異常的數(shù)據(jù)去擬合更大的值，比如使用ResNet-50抽取圖像特征，然后在其后加入兩個(gè)全連接層來構(gòu)建異常評(píng)分。
在弱監(jiān)督環(huán)境中，假設(shè)有很少的有標(biāo)簽的異常，和大規(guī)模無監(jiān)督數(shù)據(jù)，異常檢測(cè)被設(shè)置成成對(duì)關(guān)系預(yù)測(cè)任務(wù)，以區(qū)分?jǐn)?shù)據(jù)為以下哪種情況：兩個(gè)異常，一個(gè)異常，沒有異常。設(shè)A為標(biāo)記異常集，U為無標(biāo)簽集，全部數(shù)據(jù)X由A和U組成。P為數(shù)據(jù)抽樣實(shí)例對(duì)，y是序列變量，預(yù)定義有：??x???? x?? ?? > ??x???? x???? > ??x???? x?? ??，方法定義如下：

其中??是預(yù)測(cè)標(biāo)簽的方法，模型被優(yōu)化為：兩個(gè)異常點(diǎn)分?jǐn)?shù)大于一個(gè)異常點(diǎn)，大于無異常點(diǎn)。在推理階段，每個(gè)實(shí)例與A和U分別配對(duì)，以獲得異常得分。
另一種弱監(jiān)督學(xué)習(xí)方法，用于視頻監(jiān)督，已知某個(gè)視頻包含異常幀，但不知哪一幀異常，引入了基于多實(shí)例學(xué)習(xí)的排名模型，目標(biāo)是保證異常視頻（正袋）分?jǐn)?shù)大于正常視頻（負(fù)袋）分?jǐn)?shù)。使用鉸鏈損失：

其中x是抽樣的視頻片斷，Bp是正袋，Bn是負(fù)袋，損失函數(shù)第一項(xiàng)保證異常得分大于正常得分，后兩個(gè)是額外的優(yōu)化約束，第二個(gè)保證得分平衡性，最后一個(gè)保證異常稀疏性（異常幀不會(huì)太多）。
優(yōu)點(diǎn)

異常得分可直接用損失函數(shù)優(yōu)化
通過對(duì)正常/異常的相對(duì)關(guān)系替代對(duì)異常的定義
建立在成熟的排名技術(shù)和理論上
缺點(diǎn)
無監(jiān)督方法效果明顯比半監(jiān)督差。
可能不適用于未被標(biāo)記的異常情況。
挑戰(zhàn)
使用弱監(jiān)督可能學(xué)習(xí)到更具表現(xiàn)力的低維表征，上述兩種半監(jiān)督方法提供了利用粗粒度的標(biāo)簽的方法，端到端的模型可定義造成異常大的特征，提供了直接的異常解釋，另外，在有噪聲的條件下也能很好工作。

6.2 先驗(yàn)驅(qū)動(dòng)模型

基于概率的方法。
利用先驗(yàn)分布對(duì)異常分?jǐn)?shù)學(xué)習(xí)進(jìn)行編碼和驅(qū)動(dòng)?？梢詫?duì)異常分?jǐn)?shù)的內(nèi)部模塊或?qū)W習(xí)輸出施加先驗(yàn)。
基于的假設(shè)
強(qiáng)加的先驗(yàn)捕捉了數(shù)據(jù)集的基本（非）正態(tài)性。
它的關(guān)鍵的直覺是，將一組序列數(shù)據(jù)作為輸入的代理，代理的正常行為可以通過其潛在的獎(jiǎng)勵(lì)函數(shù)來理解，如果代理給一個(gè)測(cè)試序列分配了低獎(jiǎng)勵(lì)，那么該測(cè)試序列就會(huì)被識(shí)別為異常情況?？杀硎鰹槿缦碌暮篁?yàn)優(yōu)化問題：

其中?? (Θ)是基于Θ的先驗(yàn)分布，S是一系列的觀測(cè)序列，?? (s|Θ)是潛在回報(bào)函數(shù)，回報(bào)的倒數(shù)可作為異常評(píng)分，最大化上述公式就等于直接學(xué)習(xí)了異常評(píng)分。
經(jīng)驗(yàn)表明，各種真實(shí)數(shù)據(jù)集中的異常分?jǐn)?shù)都非常符合高斯分布，即假設(shè)正常實(shí)例的異常分?jǐn)?shù)聚在一起，而異常實(shí)例的異常分?jǐn)?shù)遠(yuǎn)離該聚類。研究使用高斯先驗(yàn)對(duì)異常分?jǐn)?shù)進(jìn)行編碼，并使分?jǐn)?shù)能夠直接優(yōu)化。
損失函數(shù)定義如下：

若夫中????和????分別是均值和方差，正常時(shí)y=0，異常時(shí)y=1，m是置信區(qū)間參數(shù)。該方法具有很好的可解釋性。

優(yōu)點(diǎn)

異常得分可以在給定的先驗(yàn)中直接優(yōu)化
可納入不同的先驗(yàn)，使用不同的貝葉斯深度學(xué)習(xí)技術(shù)
和其它方法相比，能學(xué)到更可解析的異常分?jǐn)?shù)
缺點(diǎn)
為場(chǎng)景設(shè)置合理的先驗(yàn)比較困難
如果先驗(yàn)不能擬合分布，則模型效果會(huì)降低。
挑戰(zhàn)
檢測(cè)模型是由異常評(píng)分函數(shù)的先驗(yàn)分布驅(qū)動(dòng)的，在訓(xùn)練數(shù)據(jù)中存在異常污染的數(shù)據(jù)中工作良好。

6.3 Softmax似然模型

通過最大化訓(xùn)練數(shù)據(jù)中事件的可能性來學(xué)習(xí)異常分?jǐn)?shù)。由于正常實(shí)例更為常見，因此被認(rèn)為是高概率事件，異常為低概率事件，從而定義異常得分。
它基于以下假設(shè)：
異常和正常實(shí)例分別是低概率事件和高概率事件。
使用直接對(duì)事件似然建模來學(xué)習(xí)異常分?jǐn)?shù)的思想。問題被定義為：

學(xué)習(xí)參數(shù)Θ，p是x發(fā)生的概率，使用最大似然函數(shù)計(jì)算。

其中??是異常評(píng)分函數(shù)，它通過特征間的關(guān)系計(jì)算：

其中z是x的低維表征，i,j是特征編號(hào)，w是交叉參數(shù)，通過訓(xùn)練獲得。計(jì)算p時(shí)分母是正則化項(xiàng)，計(jì)算量大，因此，也有使用NCE方法對(duì)其進(jìn)行優(yōu)化的。

優(yōu)點(diǎn)

不同特征交互作用可被納入異常得分的學(xué)習(xí)過程中。
異常得分忠實(shí)于特定異常交互的優(yōu)化（好像異常共性）。
缺點(diǎn)
特征多時(shí)計(jì)算量大
異常得分依賴于負(fù)樣本的生成質(zhì)量
挑戰(zhàn)
這是一種基于特征交互作用的方法，為異質(zhì)數(shù)據(jù)源泉的數(shù)據(jù)集的低維表征提供了方法，能人不同數(shù)據(jù)源捕捉到更到正態(tài)/非正態(tài)信息，比傳統(tǒng)方法更好地檢測(cè)異常。

6.4 端到端的單分類器

基于GAN的方法。
訓(xùn)練單分類器以端到端方式學(xué)習(xí)實(shí)例是否正常，與5.2.2的區(qū)別在于它不依賴SVM等已有分類器。這種方法是GAN和單分類的結(jié)合，其核心是生成判別器，區(qū)分正常實(shí)例和生成的偽異常實(shí)例。
它基于以下假設(shè)：
(i) 近似于異常的數(shù)據(jù)實(shí)例可以被有效地合成。
(ii) 所有的正常實(shí)例都可以由一個(gè)判別性的單模型來總結(jié)。
最初提出的方法ALOCC訓(xùn)練兩個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)，一個(gè)用于判別正常/異常實(shí)例，另一個(gè)被訓(xùn)練成扭曲正常值以生成異常實(shí)例（基于去噪AE）。方法定義為：

Px^是被高斯噪聲破壞的X的數(shù)據(jù)分布，它與AE的參數(shù)同時(shí)優(yōu)化。除了用AE造數(shù)據(jù)，有的方法還從異常類中抽取數(shù)據(jù)，另外還有一些生成破壞實(shí)例的其它方法，比如生成與正常實(shí)例互補(bǔ)的實(shí)例，生成邊界實(shí)例等。
優(yōu)點(diǎn)

以端到端方式進(jìn)行對(duì)抗優(yōu)化
以對(duì)抗學(xué)習(xí)和單類技術(shù)作為理論基礎(chǔ)
缺點(diǎn)
很難保證生成的參考實(shí)例與未知的異常情況非常相似。
GANs的不穩(wěn)定性可能導(dǎo)致生成的實(shí)例具有不同的質(zhì)量，從而導(dǎo)致異常分類性能不穩(wěn)定。
僅限于半監(jiān)督的異常檢測(cè)場(chǎng)景。
挑戰(zhàn)
單分類器學(xué)習(xí)生成現(xiàn)實(shí)的邊緣/邊界實(shí)例，使學(xué)習(xí)富有表現(xiàn)力的低維規(guī)范性表征成為可能。

7. 算法和數(shù)據(jù)集

7.1 代表性算法
表-2列出了代表性的算法

對(duì)其總結(jié)如下：

大多數(shù)方法在無監(jiān)督或半監(jiān)督模式下運(yùn)行
深度學(xué)習(xí)技巧，如數(shù)據(jù)增強(qiáng)、dropout和預(yù)訓(xùn)練等尚未得到充分研究
所使用的網(wǎng)絡(luò)架構(gòu)并不深，大多數(shù)方法的網(wǎng)絡(luò)層數(shù)不超過5層
(leaky) ReLU是最常用的激活函數(shù)
不同的骨干網(wǎng)可以用來處理不同類型的輸入數(shù)據(jù)。
多數(shù)算法的源代碼都是公開的，附錄A1還列出的源碼地址。

7.2 真實(shí)異常的數(shù)據(jù)集

表-3列出了可用數(shù)據(jù)集，可從 https://git.io/JTs93 獲取

8. 總結(jié)和未來的機(jī)會(huì)

8.1 探索異常監(jiān)控信號(hào)

探索異常信號(hào)是深度異常檢測(cè)的關(guān)鍵，以獲取異常評(píng)分，及正常/異常。很多方法用以對(duì)探測(cè)無監(jiān)督或自監(jiān)督的數(shù)據(jù)。5.1中的方法并未針對(duì)異常檢測(cè)優(yōu)化；5.2中方法雖然包含優(yōu)化，但對(duì)數(shù)據(jù)分布進(jìn)行了假設(shè)；另外，還有使用領(lǐng)域知識(shí)，實(shí)現(xiàn)知識(shí)驅(qū)動(dòng)的異常檢測(cè)的方法。

8.2 深度弱監(jiān)督異常檢測(cè)

弱監(jiān)督數(shù)據(jù)一般指不完全，不精確，不準(zhǔn)確（如粗粒度）標(biāo)記的異常數(shù)據(jù)，它們往往在現(xiàn)實(shí)中是可得的，并可以提升模型效果。但由于異?？赡苁歉叨犬愘|(zhì)性的，可能存在未知，新異常：超出了給定異常示例，最近研究發(fā)現(xiàn)，深度學(xué)習(xí)往往能學(xué)到超出給定異常示例范圍的異常。
當(dāng)然，檢測(cè)已知異常也非常重要，異?？赡軄碜圆煌漠惓ｎ悾虼吮憩F(xiàn)出完全不同的特征。重要的是探索利用少量標(biāo)記數(shù)據(jù)來學(xué)習(xí)更強(qiáng)大的具有更深體系結(jié)構(gòu)的檢測(cè)模型的可能性。

8.3 大規(guī)模的正常學(xué)習(xí)

大規(guī)模無監(jiān)督，自監(jiān)督表示學(xué)習(xí)在實(shí)現(xiàn)下游學(xué)習(xí)任務(wù)方面取得了巨大成功。在很難獲得足夠的標(biāo)記數(shù)據(jù)的情況下使用。首先在無監(jiān)督/自監(jiān)督模式下從大規(guī)模無標(biāo)記數(shù)據(jù)中學(xué)習(xí)可轉(zhuǎn)移的預(yù)訓(xùn)練表示模型，然后在半監(jiān)督模式下微調(diào)檢測(cè)模型。
另外，數(shù)據(jù)可能包含噪聲，因此，魯棒性在預(yù)訓(xùn)練建模和微調(diào)階段都很重要。此外，不同領(lǐng)域的異常和數(shù)據(jù)集差異很大，因此大規(guī)模的常態(tài)性學(xué)習(xí)可能在特定領(lǐng)域進(jìn)行。

8.4 復(fù)雜異常的深度檢測(cè)

目前大多數(shù)深度異常檢測(cè)方法都集中在點(diǎn)異常上，表現(xiàn)出比傳統(tǒng)方法更好的性能。然而，對(duì)條件異常，集體異常的深度模型研究較少，而處理復(fù)雜依賴數(shù)據(jù)是深度模型的優(yōu)勢(shì)，也是未來重要的機(jī)會(huì)。

8.5 可解釋和可操作的深度異常檢測(cè)

目前異常檢測(cè)主要著重優(yōu)化精度，對(duì)可解釋性關(guān)注較少，導(dǎo)致解釋性和可行動(dòng)性較弱?？衫蒙疃犬惓z測(cè)模型探索深度模型解釋和可操作知識(shí)發(fā)現(xiàn)的方法。

8.6 新穎的應(yīng)用程序和設(shè)置

已經(jīng)有一些令人興奮的新興研究應(yīng)用和問題設(shè)置，其中可能有一些擴(kuò)展深度檢測(cè)方法的重要機(jī)會(huì)。以及一些強(qiáng)相關(guān)的領(lǐng)域：比如OOD檢測(cè)（分布外檢測(cè)），好奇心學(xué)習(xí)，異常可能存在的依賴特征，檢測(cè)對(duì)抗實(shí)例。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論文閱讀_基于深度學(xué)習(xí)的異常檢測(cè)綜述

論文閱讀_基于深度學(xué)習(xí)的異常檢測(cè)綜述

讀后感

1. 介紹

2. 問題復(fù)雜性和挑戰(zhàn)

2.1 復(fù)雜性

2.2 主要挑戰(zhàn)

3. 使用深度學(xué)習(xí)異常檢測(cè)

3.1 預(yù)備工作

3.2 深度異常檢測(cè)分類

4. 深度學(xué)習(xí)的特征提取

5. 學(xué)習(xí)特征的通用表示

5.1 通用的標(biāo)準(zhǔn)化特征學(xué)習(xí)

5.1.1 自編碼器AE

5.1.2 生成對(duì)抗網(wǎng)絡(luò)GAN

5.1.3 可預(yù)測(cè)模型

5.1.4 自監(jiān)督分類器

5.2 依賴異常檢測(cè)的特征學(xué)習(xí)

5.2.1 基于距離的度量

5.2.2 基于分類的度量

5.2.3 基于聚類的度量

6. 端到端學(xué)習(xí)

6.1 排序模型

6.2 先驗(yàn)驅(qū)動(dòng)模型

6.3 Softmax似然模型

6.4 端到端的單分類器

7. 算法和數(shù)據(jù)集

7.2 真實(shí)異常的數(shù)據(jù)集

8. 總結(jié)和未來的機(jī)會(huì)

8.1 探索異常監(jiān)控信號(hào)

8.2 深度弱監(jiān)督異常檢測(cè)

8.3 大規(guī)模的正常學(xué)習(xí)

8.4 復(fù)雜異常的深度檢測(cè)

8.5 可解釋和可操作的深度異常檢測(cè)

8.6 新穎的應(yīng)用程序和設(shè)置

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論文閱讀_基于深度學(xué)習(xí)的異常檢測(cè)綜述

讀后感

1. 介紹

2. 問題復(fù)雜性和挑戰(zhàn)

2.1 復(fù)雜性

2.2 主要挑戰(zhàn)

3. 使用深度學(xué)習(xí)異常檢測(cè)

3.1 預(yù)備工作

3.2 深度異常檢測(cè)分類

4. 深度學(xué)習(xí)的特征提取

5. 學(xué)習(xí)特征的通用表示

5.1 通用的標(biāo)準(zhǔn)化特征學(xué)習(xí)

5.1.1 自編碼器AE

5.1.2 生成對(duì)抗網(wǎng)絡(luò)GAN

5.1.3 可預(yù)測(cè)模型

5.1.4 自監(jiān)督分類器

5.2 依賴異常檢測(cè)的特征學(xué)習(xí)

5.2.1 基于距離的度量

5.2.2 基于分類的度量

5.2.3 基于聚類的度量

6. 端到端學(xué)習(xí)

6.1 排序模型

6.2 先驗(yàn)驅(qū)動(dòng)模型

6.3 Softmax似然模型

6.4 端到端的單分類器

7. 算法和數(shù)據(jù)集

7.2 真實(shí)異常的數(shù)據(jù)集

8. 總結(jié)和未來的機(jī)會(huì)

8.1 探索異常監(jiān)控信號(hào)

8.2 深度弱監(jiān)督異常檢測(cè)

8.3 大規(guī)模的正常學(xué)習(xí)

8.4 復(fù)雜異常的深度檢測(cè)

8.5 可解釋和可操作的深度異常檢測(cè)

8.6 新穎的應(yīng)用程序和設(shè)置

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av