異常檢測-學(xué)習(xí)筆記-1

異常檢測的學(xué)習(xí)筆記并非原創(chuàng),而是搜索各位大佬的帖子整理而得。如有冒犯,請聯(lián)系我。

1. 異常檢測定義

在數(shù)據(jù)挖掘中,異常檢測(Anomaly?Detection)對不匹配預(yù)期模式或數(shù)據(jù)集中其他項目的項目、事件或觀測值的識別。通常異常項目會轉(zhuǎn)變成銀行欺詐、結(jié)構(gòu)缺陷、醫(yī)療問題、文本錯誤等類型的問題。異常也被稱為離群值、新奇、噪聲、偏差和例外。

1.1 異常檢測的類別

?異常點檢測(Outlier detection),又稱為離群點檢測,是找出與預(yù)期對象的行為差異較大的對象的一個檢測過程。異常點檢測在生產(chǎn)生活中有著廣泛應(yīng)用,比如信用卡反欺詐、工業(yè)損毀檢測、廣告點擊反作弊等。異常檢測的一大難點是缺少ground?truth。常見的方法是先用無監(jiān)督方法挖掘異常樣本,再用有監(jiān)督模型融合多個特征挖掘更多作弊。

上下文異常,指的是在特定情境下個體實例是異常的,在其他情境下都是正常的,\href{}{例如在特定時間下的溫度突然上升或下降},在特定場景中的快速信用卡交易;

群體異常指的是在群體集合中的個體實例出現(xiàn)異常的情況,而該個體實例??可能不是異常,例如社交網(wǎng)絡(luò)中虛假賬號形成的集合作為群體異常?集,但?集中的個體節(jié)點可能與真實賬號?樣正常。

1.2? 異常檢測的應(yīng)用

在自然界,人類社會中,以及其他數(shù)據(jù)領(lǐng)域,大多數(shù)事件和個體都是平?;蛘咂胀ǖ摹5傆幸恍﹤€體或事件是‘不平凡‘’的。比如一些極端天氣,一些運動員總能打破紀(jì)錄。

1. 欺詐檢測

2. 入侵檢測

3.?生態(tài)災(zāi)難預(yù)警

4.?反垃圾

5.?制藥領(lǐng)域

6.?時間序列異常檢測

2.? 異常檢測的方法

2.1 傳統(tǒng)方法

2.1.1? 基于統(tǒng)計學(xué)的方法

主要是對數(shù)據(jù)的分布做出假設(shè),并找出假設(shè)下所定義的“異?!保惓z測的統(tǒng)計學(xué)?法的?般思想是:學(xué)習(xí)?個擬合給定數(shù)據(jù)集的?成模型,然后識別該模型低概率區(qū)域中的對象,把它們作為異常點。

2.1.2 線性模型

基于矩陣分解的異常點檢測方法的主要思想是利用主成分分析(PCA)去尋找那些違反了數(shù)據(jù)之間相關(guān)性的異常點。為了找到這些異常點,基于主成分分析的算法會把數(shù)據(jù)從原始空間投影到主成分空間,然后再從主成分空間投影回原始空間。

2.1.3 基于相似度的方法

這類算法適?于數(shù)據(jù)點的聚集程度?、離群點較少的情況。同時,因為相似度算法通常需要對每?個數(shù)據(jù)分別進?相應(yīng)計算,所以這類算法通常計算量?,不太適?于數(shù)據(jù)量?、維度?的數(shù)據(jù)。

2.2 集成方法

?對于高維數(shù)據(jù)而言,往往一個模型是不夠的,比如前面的feature?bagging(類比于監(jiān)督學(xué)習(xí)中的隨機森林)會建立多個模型。

?集成異常檢測(outlier ensembles)一般是平行式(parallel?learning)的比如求平均,bagging類型為主流,而非序列式(sequential)如boosting?,F(xiàn)在的主流集成異常檢測因此性能還是有限的,畢竟取多個模型的均值或者最大值是現(xiàn)階段的可行方法。

2.3 機器學(xué)習(xí)

在有標(biāo)簽的情況下,可以使?樹模型(gbdt,xgboost等)進?分類,缺點是異常檢測場景下數(shù)據(jù)標(biāo)簽是不均衡的,但是利?機器學(xué)習(xí)算法的好處是可以構(gòu)造不同特征。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容