目的:介紹無(wú)監(jiān)督學(xué)習(xí)異常檢測(cè)算法,主要是用高斯分布(正態(tài)分布)數(shù)據(jù)模型
1. Lesson 123 問(wèn)題動(dòng)機(jī)
????1. 目的:解釋異常檢測(cè)的背景也應(yīng)用場(chǎng)景
????2. 內(nèi)容:給到一定的數(shù)據(jù)集,無(wú)監(jiān)督訓(xùn)練并建立模型(p(x),高斯分布),當(dāng)p(x)<?時(shí),代表異常
????3. 應(yīng)用場(chǎng)景:交易欺詐、網(wǎng)站登錄異常、服務(wù)器集群監(jiān)控等
2. Lesson 124 高斯分布
????1. 目的:介紹高斯分布(正態(tài)分布)
????2. 內(nèi)容:
??????1. 實(shí)數(shù)集x∈R,如果說(shuō)x服從均值μ,方差??2的正太分布,則記為:x~N(μ,??2),其中μ空值曲線(xiàn)的中心,??^2空值寬度

??????2. 高斯分布公式

??????3. 標(biāo)準(zhǔn)正太分布,μ=0,,??=1

??????4. 均值μ、方差??^2公式

3. Lesson 125 算法
????1. 目的:介紹如何將高斯分布應(yīng)用于算法,以及如何開(kāi)發(fā)

4. Lesson 126 開(kāi)發(fā)和評(píng)估異常檢測(cè)
????1. 目的:評(píng)估異常檢測(cè)算法
????2. 內(nèi)容:
??????1. 最好是有正樣本的數(shù)據(jù)集,并且將正樣本分散到驗(yàn)證集和測(cè)試集中

??????2. 異常檢測(cè)本身也是一個(gè)非對(duì)稱(chēng)數(shù)據(jù)集,在具體評(píng)估時(shí)使用召回率(R=正確預(yù)測(cè)分類(lèi)數(shù)量/實(shí)際正樣本數(shù)量,評(píng)估覆蓋度)、準(zhǔn)確率(P=正確預(yù)測(cè)分類(lèi)數(shù)量/預(yù)測(cè)正樣本數(shù)量,評(píng)估準(zhǔn)確性)、F值(2(PR)/(P+R) ,F值越大越好)指標(biāo)進(jìn)行評(píng)估
5. Lesson 127 異常檢測(cè)與監(jiān)督學(xué)習(xí)
????1. 目的:解釋異常檢測(cè)和監(jiān)督學(xué)習(xí)的區(qū)別和不同應(yīng)用場(chǎng)景
????2. 內(nèi)容
??????1. 當(dāng)正樣本數(shù)量極少,負(fù)樣本數(shù)量極多(即非對(duì)稱(chēng)數(shù)據(jù)集)時(shí)建議使用異常檢測(cè)算法,且正樣本的異常情況不好預(yù)測(cè)
??????2. 當(dāng)數(shù)據(jù)集同時(shí)包括了大量正負(fù)樣本時(shí),可以使用監(jiān)督學(xué)習(xí)
6. Lesson 128 選擇要使用的特征
????1. 目的:如何選擇或設(shè)計(jì)異常檢測(cè)算法的特征變量
????2. 內(nèi)容:
??????1. 首先畫(huà)出x的分布圖,看是否服從正太分布,如果不服從,可以用使用log(x+c)等函數(shù)使得x_new服從正太分布

??????2. 誤差分析,通過(guò)誤差分析找出異常值,并人工檢查看能否發(fā)現(xiàn)新的特征,比如衍生變量(x1/x2等)
7. Lesson 129 多變量高斯分布
????1. 目的:介紹原始多元分布的延伸,多元高斯分布
????2. 內(nèi)容:
??????1. 存在一種情況是單個(gè)獨(dú)立特征服從高斯分布,并不異常,但是組合起來(lái)就明顯異常,這個(gè)時(shí)候就需要用到多變量高斯分布

??????2. 多元高斯分布公式


8. Lesson 130 使用多變量高斯分布的異常檢測(cè)
????1.目的:講解多元高斯分布算法公式
????2.內(nèi)容
??????1.具體公式已經(jīng)放到上圖中
