論惡意網(wǎng)絡(luò)流量分類的機(jī)器學(xué)習(xí)模型設(shè)計(jì)

來(lái)源:https://arxiv.org/pdf/1907.04846.pdf

摘要

機(jī)器學(xué)習(xí)(ML)開(kāi)始廣泛應(yīng)用于網(wǎng)絡(luò)安全設(shè)置中,以縮短網(wǎng)絡(luò)攻擊的檢測(cè)周期。到目前為止,大多數(shù)基于ml的系統(tǒng)要么是私有的,要么對(duì)特性表示和機(jī)器學(xué)習(xí)模型做出特定的選擇。由于目前還沒(méi)有公開(kāi)的基準(zhǔn)數(shù)據(jù)集,很難評(píng)估這些技術(shù)是否成功。在本文中,我們?yōu)樵诰W(wǎng)絡(luò)安全中使用監(jiān)督ML提供了具體的指導(dǎo)和建議。作為一個(gè)案例研究,我們考慮了僵尸網(wǎng)絡(luò)檢測(cè)的網(wǎng)絡(luò)流量數(shù)據(jù)。在我們的發(fā)現(xiàn)中,我們強(qiáng)調(diào):(1)特征表示應(yīng)該考慮攻擊特征;(2)集成模型非常適合處理類不平衡問(wèn)題;(3) ground truth的粒度是這些方法成功的重要因素。

1介紹

從投機(jī)取巧的惡意活動(dòng)到復(fù)雜的國(guó)家資助的運(yùn)動(dòng),各種各樣的威脅威脅著工業(yè)、學(xué)術(shù)界和政府的組織。這些攻擊通常會(huì)導(dǎo)致重要信息的丟失,并影響消費(fèi)者和企業(yè)。值得注意的例子有:2017年的Equifax數(shù)據(jù)泄露事件,以及2015年的Anthem醫(yī)保運(yùn)動(dòng),導(dǎo)致數(shù)百萬(wàn)美國(guó)公民的個(gè)人財(cái)務(wù)和醫(yī)療記錄遭到泄露。

迄今為止,大多數(shù)企業(yè)在其環(huán)境中部署了許多安全控制,并應(yīng)用最佳實(shí)踐(如修補(bǔ)脆弱的系統(tǒng)、使用威脅情報(bào)服務(wù)和端點(diǎn)掃描)來(lái)防范網(wǎng)絡(luò)威脅。在大多數(shù)組織中,監(jiān)控工具要么部署在網(wǎng)絡(luò)上(例如,網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)、web代理、防火墻),要么部署在終端主機(jī)上(例如,殺毒軟件、端點(diǎn)代理)。隨著大型企業(yè)收集的安全日志的可用性,機(jī)器學(xué)習(xí)(ML)開(kāi)始成為面對(duì)日益復(fù)雜的網(wǎng)絡(luò)攻擊的重要防御工具。用于網(wǎng)絡(luò)數(shù)據(jù)的ML技術(shù)包括檢測(cè)惡意域的系統(tǒng)(如[1,5,2]),檢測(cè)惡意軟件傳遞的方法(如[9])或命令控制通信的方法(如4,11,8,12),檢測(cè)惡意網(wǎng)頁(yè)的技術(shù)(如[15]),以及企業(yè)威脅檢測(cè)的各種工業(yè)產(chǎn)品(如[13,6,10,7,16])。

在縮短惡意軟件檢測(cè)周期方面,ML有很大的潛力,但這些算法往往有一些缺點(diǎn)。特別是,Sommer和Paxson[14]強(qiáng)調(diào)了在網(wǎng)絡(luò)安全的操作設(shè)置中使用ML的困難。他們發(fā)現(xiàn)的主要限制是:(1)ML通過(guò)學(xué)習(xí)帶標(biāo)記的示例擅長(zhǎng)監(jiān)督任務(wù),而在網(wǎng)絡(luò)安全中大多數(shù)數(shù)據(jù)是無(wú)標(biāo)記的。(2) ML錯(cuò)誤(特別是誤報(bào))的代價(jià)很高,因?yàn)榫瘓?bào)需要由安全分析人員進(jìn)行調(diào)查。(3)正常運(yùn)行條件下,網(wǎng)絡(luò)流量多樣性較高。(4)由于缺乏標(biāo)準(zhǔn)的基準(zhǔn)數(shù)據(jù)集,執(zhí)行可靠的評(píng)估通常很有挑戰(zhàn)性。

本文介紹了在網(wǎng)絡(luò)安全中使用有監(jiān)督的ML的一些具體的指導(dǎo)和建議。作為一個(gè)案例研究,我們考慮了僵尸網(wǎng)絡(luò)檢測(cè)的網(wǎng)絡(luò)流量數(shù)據(jù)。我們利用一個(gè)公共數(shù)據(jù)集(CTU-13),其中包括從大學(xué)校園收集的網(wǎng)絡(luò)流量和對(duì)大學(xué)網(wǎng)絡(luò)發(fā)起的攻擊。在我們的研究結(jié)果中,我們強(qiáng)調(diào)以下幾點(diǎn):

?特性表示應(yīng)該考慮攻擊的細(xì)節(jié)。在標(biāo)準(zhǔn)的特征表示中,我們將連接級(jí)別的特征(直接從Bro日志中提取)與聚合的流量統(tǒng)計(jì)和時(shí)間特征(使用固定時(shí)間窗口)進(jìn)行比較。

?類不平衡是一個(gè)主要的問(wèn)題,阻礙了邏輯回歸等簡(jiǎn)單的線性模型的性能。

?像梯度增強(qiáng)這樣的集成方法具有能夠很好地處理類不平衡的內(nèi)置技術(shù)。與線性模型相比,它們?cè)趨^(qū)分惡意連接和良性連接方面取得了更好的性能。

?數(shù)據(jù)標(biāo)記的粒度(ground truth)會(huì)對(duì)分類指標(biāo)產(chǎn)生實(shí)質(zhì)性的影響。如果可用,在單個(gè)網(wǎng)絡(luò)連接級(jí)別獲得的ground truth可以提高監(jiān)督ML模型的性能。

2背景與威脅模型

2.1機(jī)器學(xué)習(xí)用于網(wǎng)絡(luò)流量分類

網(wǎng)絡(luò)入侵檢測(cè)是一個(gè)非常活躍的研究領(lǐng)域。Snort等傳統(tǒng)系統(tǒng)基于人工生成的規(guī)則來(lái)檢測(cè)已知的惡意軟件變體。

最近,ML在擴(kuò)展基于規(guī)則的系統(tǒng)方面被證明是有價(jià)值的。ML有可能檢測(cè)出更高級(jí)的惡意活動(dòng),從而避開(kāi)基于規(guī)則的系統(tǒng)。ML成功應(yīng)用于各類網(wǎng)絡(luò)數(shù)據(jù)的惡意軟件檢測(cè)包括:

?使用被動(dòng)DNS數(shù)據(jù)的域名信譽(yù)系統(tǒng),如Notos[1]和EXPOSURE[5]。

?基于NetFlow數(shù)據(jù)的命令控制檢測(cè),如DISCLOSURE[4]和BotFinder[17]。

?使用ExecScent[11]、BAYWATCH[8]、MADE[12]等web代理日志進(jìn)行惡意通信檢測(cè)。

Bro是一個(gè)開(kāi)源的網(wǎng)絡(luò)監(jiān)控代理,它收集大量的網(wǎng)絡(luò)日志。這里我們利用Bro連接日志,它記錄了圖1中包含的字段。這些參數(shù)包括TCP連接時(shí)間戳、持續(xù)時(shí)間、源IP和端口、目標(biāo)IP和端口、發(fā)送和接收的數(shù)據(jù)包數(shù)量、發(fā)送和接收的字節(jié)數(shù)以及連接狀態(tài)。對(duì)于UDP,每個(gè)UDP包都會(huì)生成一個(gè)條目(因?yàn)椴淮嬖赨DP連接)。


2.2問(wèn)題陳述和威脅模型

ML算法在檢測(cè)僵尸網(wǎng)絡(luò)或惡意域的網(wǎng)絡(luò)流量分類任務(wù)中取得了成功。但是,大多數(shù)ML方法都是用一種特別的方式設(shè)計(jì)的,并且目前還沒(méi)有關(guān)于這個(gè)領(lǐng)域的原則方法的指南。我們有興趣填補(bǔ)這一空白,并就幾個(gè)一般原則提供建議,應(yīng)該指導(dǎo)ML設(shè)計(jì)僵尸網(wǎng)絡(luò)和惡意軟件檢測(cè)。我們專門(mén)解決從網(wǎng)絡(luò)日志(由Bro日志生成)檢測(cè)僵尸網(wǎng)絡(luò)的問(wèn)題,但是我們的方法可以與其他網(wǎng)絡(luò)數(shù)據(jù)類型(如NetFlow、pcap、防火墻)一起使用。我們想回答的一些研究問(wèn)題如下:

?原始網(wǎng)絡(luò)數(shù)據(jù)能在ML算法中有效使用嗎?

?哪種特征表示最適合應(yīng)用ML分類算法?

?哪種分類器在處理大量不平衡的網(wǎng)絡(luò)安全數(shù)據(jù)集時(shí)性能最好?

?標(biāo)記數(shù)據(jù)對(duì)ground truth生成有什么影響?

我們假設(shè)收集網(wǎng)絡(luò)數(shù)據(jù)的監(jiān)視代理不在攻擊者的控制之下。我們還假設(shè)攻擊者不能篡改收集到的網(wǎng)絡(luò)日志。因此,攻擊者無(wú)法訪問(wèn)記錄數(shù)據(jù)的存儲(chǔ)設(shè)備。

3 用于僵尸網(wǎng)絡(luò)檢測(cè)的ML案例研究

3.1數(shù)據(jù)集

我們利用了一個(gè)僵尸網(wǎng)絡(luò)流量的數(shù)據(jù)集,該數(shù)據(jù)集是2011年在捷克共和國(guó)的反恐組大學(xué)捕獲的。數(shù)據(jù)集包括13個(gè)場(chǎng)景,每個(gè)場(chǎng)景都包括合法的流量,以及各種攻擊,如垃圾郵件、端口掃描、DDOS和點(diǎn)擊欺詐。數(shù)據(jù)集還包括一個(gè)僵尸網(wǎng)絡(luò)ip列表,可用于標(biāo)記流量。

由于ML分類需要使用類似的攻擊數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試,所以我們決定使用6個(gè)場(chǎng)景的子集。其中,3個(gè)場(chǎng)景由僵尸網(wǎng)絡(luò)Neris生成(執(zhí)行垃圾郵件和點(diǎn)擊欺詐活動(dòng)),3個(gè)場(chǎng)景由僵尸網(wǎng)絡(luò)Rbot生成(執(zhí)行DDoS活動(dòng))。統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表1。對(duì)于其他僵尸網(wǎng)絡(luò),只有一種可能的情況,這就排除了監(jiān)督ML的使用。

在傳統(tǒng)的ML中,交叉驗(yàn)證是評(píng)估模型泛化程度的一種著名方法。k-fold交叉驗(yàn)證將數(shù)據(jù)隨機(jī)分成k個(gè)分區(qū),在其中的k?1上訓(xùn)練一個(gè)模型,并在第k個(gè)分區(qū)上求值。隨機(jī)分割日志可以在訓(xùn)練集和測(cè)試集之間產(chǎn)生高度相關(guān)的數(shù)據(jù)。相反,我們?cè)趦蓚€(gè)場(chǎng)景上進(jìn)行訓(xùn)練,并在第三個(gè)(獨(dú)立的)場(chǎng)景上進(jìn)行測(cè)試,對(duì)兩個(gè)僵尸網(wǎng)絡(luò)中的每一個(gè)重復(fù)實(shí)驗(yàn)3次。因此,我們保證測(cè)試數(shù)據(jù)獨(dú)立于訓(xùn)練。這種將數(shù)據(jù)分解為訓(xùn)練和測(cè)試的方法(基于獨(dú)立的攻擊場(chǎng)景)更適合這種設(shè)置。在其他上下文中,需要考慮環(huán)境的細(xì)節(jié)。

3.2概述

我們的系統(tǒng)架構(gòu)如圖2所示。我們的系統(tǒng)處理在組織(校園或企業(yè)網(wǎng)絡(luò))邊界收集的網(wǎng)絡(luò)日志。數(shù)據(jù)采集完成后,利用特征提取層對(duì)數(shù)據(jù)進(jìn)行ML訓(xùn)練。許多分類算法用于訓(xùn)練分類器并優(yōu)化標(biāo)準(zhǔn)指標(biāo),如精度、召回率、F1分?jǐn)?shù)和AUC。將分類器應(yīng)用于新的測(cè)試場(chǎng)景,以評(píng)估其通用性并預(yù)測(cè)可疑的網(wǎng)絡(luò)活動(dòng)。我們相信這個(gè)框架足夠通用,可以適用于其他環(huán)境。

3.3特征提取

我們對(duì)不同的特征表示進(jìn)行了實(shí)驗(yàn),如下所述。

連接級(jí)表示。這種表示直接從原始連接日志中提取特性。我們考慮所有的連接,其中ip要么是id:origh或id:desth,我們直接使用Bro連接日志中的字段作為特性:

對(duì)于分類特性(例如proto),我們使用標(biāo)準(zhǔn)onehot編碼。在這個(gè)表示中,我們?cè)谝淮螣峋幋a后獲得了26個(gè)特征。

聚合流量統(tǒng)計(jì)數(shù)據(jù)。接下來(lái),我們將探討時(shí)間聚合獲得的特性是否比原始特性更強(qiáng)大。我們考慮一個(gè)長(zhǎng)度為T(mén)的時(shí)間間隔,在這個(gè)時(shí)間間隔上,我們定義了所有連接上的聚合特性,其中ip要么是id:orig h,要么是id:dest h。

在定義我們的特性時(shí),一個(gè)重要的考慮是生成固定數(shù)量的特性,與特定主機(jī)上的流量無(wú)關(guān)。我們的第一次嘗試,我們考慮IP與之通信的所有目的IP地址的集合:SIP = {IP1;:::;;IPn}。根據(jù)這些定義,我們可以定義ip與之通信的/24目的子網(wǎng):Ssubnet = {Sub1;:::;;Subm}如果我們定義每個(gè)目的地或子網(wǎng)的聚合特性,當(dāng)主機(jī)訪問(wèn)新的ip或新的目的地時(shí),我們將遇到一個(gè)問(wèn)題。在這種情況下,我們需要向表示添加新特性,這在實(shí)踐中是不可取的。

為了緩解這個(gè)問(wèn)題,我們通過(guò)目標(biāo)端口(對(duì)應(yīng)于應(yīng)用程序或網(wǎng)絡(luò)服務(wù))來(lái)定義聚合的特性。具體來(lái)說(shuō),我們定義了一組17個(gè)流行的應(yīng)用程序端口(例如,HTTP - 80、HTTPS - 443、SSH - 22、DNS -53)。然后我們采用模塊化方法。我們選擇了少量的操作符(Distinct、Sum、Min、Max),并將它們應(yīng)用于每個(gè)目的端口的connect .log中的字段。表2描述了這些特性。我們分別為傳出和傳入連接生成這些特性。此外,我們還添加了一些功能來(lái)捕獲與外部IP目的地的通信模式(例如,每個(gè)傳輸協(xié)議的連接數(shù)、源和目標(biāo)端口的數(shù)量、目標(biāo)IP的數(shù)量等)。在這個(gè)表示中,我們獲得了756個(gè)聚合的流量特征。

時(shí)間特性。將節(jié)點(diǎn)間到達(dá)特征定義為節(jié)點(diǎn)間通信時(shí)間分布的平均值、標(biāo)準(zhǔn)差、中位數(shù)、最小值和最大值,并考慮時(shí)間間隔T與節(jié)點(diǎn)間連接級(jí)特征的集合。每個(gè)內(nèi)部節(jié)點(diǎn)都有兩組這樣的特性:一組用于節(jié)點(diǎn)作為通信源的事件(傳出),另一組用于節(jié)點(diǎn)作為目標(biāo)的事件(傳入)。這些通信通過(guò)公共端口進(jìn)行聚合。因此,在每個(gè)時(shí)間間隔T,我將有一個(gè)節(jié)點(diǎn)在表3中列出的inter-arrival特性。在這個(gè)表示中,我們獲得了180個(gè)特征。

3.4ML分類和標(biāo)記

地面真相標(biāo)簽CTU-13數(shù)據(jù)集提供僵尸網(wǎng)絡(luò)IP地址列表。我們的主要觀察之一是,攻擊在整個(gè)數(shù)據(jù)收集期間不是活動(dòng)的。我們發(fā)現(xiàn)標(biāo)記數(shù)據(jù)的粒度在結(jié)果中起著很大的作用。我們嘗試了兩個(gè)層次的粒度:

粗粒度標(biāo)記:在整個(gè)場(chǎng)景期間,我們將僵尸網(wǎng)絡(luò)ip生成的所有連接日志標(biāo)記為惡意

細(xì)粒度標(biāo)記:對(duì)于Rbot攻擊(DDoS的一個(gè)實(shí)例),我們獲得受害機(jī)器的IP地址。我們使用它來(lái)識(shí)別連接到受害IP的攻擊流。對(duì)于所有的特性表示,如果時(shí)間窗口中至少有一個(gè)攻擊日志事件,則將時(shí)間窗口標(biāo)記為惡意。

細(xì)粒度標(biāo)記通常很難獲得,因?yàn)樗且粋€(gè)手動(dòng)過(guò)程,但當(dāng)它可用時(shí),它大大提高了ML在僵尸網(wǎng)絡(luò)檢測(cè)中的性能。

我們考慮了幾個(gè)著名的ML分類模型,包括邏輯回歸、隨機(jī)森林和梯度增強(qiáng)。我們使用幾個(gè)指標(biāo)來(lái)評(píng)估ML算法的性能(精度、召回率、F1分?jǐn)?shù)和AUC)。由于該數(shù)據(jù)集的不平衡程度相當(dāng)大(惡意樣本與合法樣本的比例低至Neris為1:134,Rbot為1:401,特征以30秒的間隔聚合),因此準(zhǔn)確性總是相當(dāng)高(在我們所有的實(shí)驗(yàn)中都高于0.96)。我們對(duì)少數(shù)(惡意)類的結(jié)果感興趣,因此精確度、召回率、F1分?jǐn)?shù)和AUC是更好的指示器,可以用來(lái)指示分類器在檢測(cè)僵尸網(wǎng)絡(luò)時(shí)的表現(xiàn)。

對(duì)于ML分類器,我們對(duì)幾個(gè)超參數(shù)執(zhí)行網(wǎng)格搜索,以選擇在我們的設(shè)置中表現(xiàn)最好的模型。對(duì)于隨機(jī)森林,我們選擇{10;50;100;200}中的樹(shù)的數(shù)量,發(fā)現(xiàn)100棵樹(shù)的效果最好。對(duì)于梯度增強(qiáng),我們?cè)趝50;100;200}中改變估計(jì)量的數(shù)量,在{3;5;7}中改變每棵樹(shù)的最大深度,在{0:01;0:05;0:1}中改變學(xué)習(xí)率。我們選擇了100個(gè)最大深度為3的估計(jì)量,學(xué)習(xí)率為0.05。對(duì)于邏輯回歸,我們使用L1或Lasso正則化來(lái)減少空間維度。

4實(shí)驗(yàn)評(píng)價(jià)

在我們的實(shí)驗(yàn)評(píng)估期間,我們想回答幾個(gè)研究問(wèn)題,我們將在下面詳細(xì)說(shuō)明。哪個(gè)特性表現(xiàn)最好?我們比較了不同的特性表示(連接級(jí)表示、聚合的流量統(tǒng)計(jì)和時(shí)間特性)。在這個(gè)實(shí)驗(yàn)中,我們使用100棵樹(shù)的隨機(jī)森林分類器和一個(gè)30秒的時(shí)間窗口進(jìn)行聚集。

Neris的結(jié)果如表4所示,它們顯示在所有感興趣的指標(biāo)上,聚合的特性(流量統(tǒng)計(jì)和時(shí)間)的性能顯著優(yōu)于直接從Bro日志中提取的原始特性。例如,在場(chǎng)景2和場(chǎng)景9上進(jìn)行訓(xùn)練并在場(chǎng)景1上進(jìn)行測(cè)試時(shí),連接特性的F1得分為0.65,而聚合特性的F1得分為0.98。當(dāng)我們同時(shí)考慮流量和時(shí)間特性時(shí),與只使用聚合的流量特性相比,我們沒(méi)有發(fā)現(xiàn)重大的區(qū)別。

細(xì)粒度標(biāo)記的Rbot結(jié)果見(jiàn)表5。在這里,基于連接的特性執(zhí)行得非常好。原因是這是一種DDoS攻擊,所有發(fā)送給受害者的包都是相同的。然而,流量統(tǒng)計(jì)和時(shí)間特征也表現(xiàn)良好。例外情況是場(chǎng)景4和場(chǎng)景11的訓(xùn)練和場(chǎng)景10的測(cè)試。在這種情況下,使用30秒聚合進(jìn)行訓(xùn)練的僵尸網(wǎng)絡(luò)樣本數(shù)量非常少(142),而原始數(shù)據(jù)中的僵尸網(wǎng)絡(luò)樣本數(shù)量要多得多(378,252)。

改變時(shí)間窗口的影響是什么?在這里,我們驗(yàn)證聚合時(shí)間窗口的選擇。表6和圖3顯示了將時(shí)間窗口從1秒更改為600秒的結(jié)果。30秒和60秒時(shí)間窗口顯示了類似的結(jié)果,并且它們?cè)诖蠖鄶?shù)情況下表現(xiàn)良好。除了在場(chǎng)景1上測(cè)試之外,窗口大小10的性能也很好。當(dāng)時(shí)間窗口超過(guò)120秒時(shí),結(jié)果開(kāi)始變差。懷疑這是因?yàn)樵谳^大的聚集窗口的攻擊流量的小樣本,以及合法流量中的附加噪聲。通常,選擇聚合的最佳時(shí)間窗口與攻擊有關(guān)。我們建議使用交叉驗(yàn)證來(lái)選擇時(shí)間窗口的最佳值。根據(jù)這些結(jié)果,我們?yōu)槭O碌膶?shí)驗(yàn)選擇了一個(gè)30秒的時(shí)間窗口。



不同ML模型的影響是什么?一個(gè)重要的觀察是,網(wǎng)絡(luò)安全的不平衡數(shù)量非常大(正如之前的工作所觀察到的[3,12])。眾所周知,集成分類器,如隨機(jī)森林和提高處理不平衡比簡(jiǎn)單的模型要好得多。我們通過(guò)使用三個(gè)不同的分類器來(lái)測(cè)試這個(gè)假設(shè):邏輯回歸,隨機(jī)森林,梯度增強(qiáng)。我們將聚合時(shí)間窗口固定為30秒,并使用流量統(tǒng)計(jì)和時(shí)間特性。

Neris的三個(gè)分類器結(jié)果如表7所示,精度召回曲線如圖4所示。我們實(shí)驗(yàn)的三種模型都表現(xiàn)得相對(duì)較好。兩種集成方法都比logistic回歸模型有更好的表現(xiàn),在所有場(chǎng)景下F1得分都在0.94到0.98之間。隨機(jī)森林和梯度增強(qiáng)的區(qū)別是難以察覺(jué)的,它們都是強(qiáng)有力的分類模型。

這些模型是可解釋的嗎?為了理解ML模型學(xué)習(xí)到的內(nèi)容,我們計(jì)算了Neris和Rbot的隨機(jī)森林分類器的特征重要性(使用聚合的流量統(tǒng)計(jì)和30秒窗口的定時(shí)特性)。結(jié)果見(jiàn)表8。有趣的是,我們觀察到分類器識(shí)別與攻擊相關(guān)的特征。Neris是一個(gè)垃圾郵件僵尸網(wǎng)絡(luò),它的大部分活動(dòng)都使用端口25,這使得諸如不同的源端口和端口25上的中間到達(dá)包時(shí)間這樣的特性變得非常重要。相比之下,Rbot是一個(gè)使用不同端口進(jìn)行攻擊的DDoS僵尸網(wǎng)絡(luò)。例如UDP flood使用的是端口161,分類器正確判斷出端口161上的inter-arrival packet timing的標(biāo)準(zhǔn)差是最重要的特征。


這些結(jié)果顯示了我們的框架的靈活性和泛化不同攻擊模式的能力。我們定義了一組936個(gè)通用特性,可用于各種僵尸網(wǎng)絡(luò)攻擊。對(duì)于我們實(shí)驗(yàn)的兩個(gè)不同的僵尸網(wǎng)絡(luò),ML模型識(shí)別出與攻擊相關(guān)的最相關(guān)特征,而不需要人類專家來(lái)明確定位這些特征。隨機(jī)森林等模型為特征重要性提供了標(biāo)準(zhǔn)的度量標(biāo)準(zhǔn),與缺乏可解釋性的深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)相比,它們?cè)谀P涂山忉屝苑矫婢哂忻黠@的優(yōu)勢(shì)。在網(wǎng)絡(luò)安全中,可解釋性非常重要,因?yàn)榇蠖鄶?shù)時(shí)候,人類專家都會(huì)分析ML系統(tǒng)的警報(bào)。

標(biāo)記流準(zhǔn)確的影響是什么?我們做了一個(gè)實(shí)驗(yàn)來(lái)測(cè)試數(shù)據(jù)標(biāo)記的粒度如何影響分類結(jié)果。對(duì)于Rbot DDoS僵尸網(wǎng)絡(luò),我們可以訪問(wèn)受害機(jī)器的IP地址,因此我們可以確定哪些連接是僵尸網(wǎng)絡(luò)相關(guān)的。我們將細(xì)粒度標(biāo)記稱為僅將僵尸網(wǎng)絡(luò)連接標(biāo)記為惡意IP的過(guò)程。我們將粗粒度標(biāo)記稱為將僵尸網(wǎng)絡(luò)IP發(fā)起的所有連接標(biāo)記為惡意連接的過(guò)程。

表9顯示了隨機(jī)森林細(xì)粒度標(biāo)記和粗粒度標(biāo)記的結(jié)果,以及每30秒聚合一次的特征梯度增強(qiáng)分類器的結(jié)果。結(jié)果表明,細(xì)粒度標(biāo)記比粗粒度標(biāo)記具有更好的分類性能。例如,在場(chǎng)景10和11上進(jìn)行訓(xùn)練,并在場(chǎng)景4上進(jìn)行測(cè)試時(shí),粗粒度標(biāo)記的F1分?jǐn)?shù)為0.44,而細(xì)粒度標(biāo)記的F1分?jǐn)?shù)為完美。這兩個(gè)分類器在這里對(duì)細(xì)粒度標(biāo)記執(zhí)行類似的操作。

5教訓(xùn)和一般建議

基于我們對(duì)來(lái)自Bro日志的僵尸網(wǎng)絡(luò)分類的案例研究,我們強(qiáng)調(diào)了幾個(gè)我們認(rèn)為適用于ML用于網(wǎng)絡(luò)安全的其他環(huán)境的指導(dǎo)原則。需要評(píng)估多個(gè)特性表示。直接從原始數(shù)據(jù)(如Bro連接日志)提取的特征并不總是得到最優(yōu)的表示。在我們對(duì)內(nèi)部IP地址進(jìn)行分類的設(shè)置中,有一種表現(xiàn)很好,那就是按時(shí)間窗口和端口號(hào)進(jìn)行特性聚合。我們還觀察到,特征表示取決于可用的訓(xùn)練數(shù)據(jù)量。由于惡意類和良性類之間存在很大的不平衡,因此更小的時(shí)間窗口更適合聚合。然而,正確的特征表示和選擇特征聚合的時(shí)間窗口取決于攻擊類型。我們建議評(píng)估多個(gè)特性表示。

模型的可解釋性。提供可解釋性的模型是網(wǎng)絡(luò)安全的首選,因?yàn)榘踩治鰩熜枰{(diào)查ML系統(tǒng)發(fā)出的警報(bào)。理解為什么流被標(biāo)記為惡意流可以顯著加快調(diào)查速度。我們展示了如何通過(guò)識(shí)別最相關(guān)的特征來(lái)解釋隨機(jī)森林分類器,這些特征清楚地提供了關(guān)于僵尸網(wǎng)絡(luò)活動(dòng)的見(jiàn)解。

數(shù)據(jù)不平衡對(duì)監(jiān)督學(xué)習(xí)提出了挑戰(zhàn)。數(shù)據(jù)的不平衡給網(wǎng)絡(luò)安全分類帶來(lái)了巨大的挑戰(zhàn)。簡(jiǎn)單的模型如線性模型不能很好地處理階級(jí)不平衡。結(jié)果表明,即使在高度不平衡的情況下,隨機(jī)森林和梯度增強(qiáng)等集成模型也能取得較好的效果。例如,在1:134的不平衡情況下(對(duì)Neris場(chǎng)景2進(jìn)行測(cè)試時(shí)),我們通過(guò)梯度增強(qiáng)獲得了0.97的精確度和0.95的召回率。

另一種分類方法是使用異常檢測(cè)模型,該模型從合法的類中學(xué)習(xí),并將攻擊識(shí)別為異常。然而,Sommer和Paxson廣泛地討論了在網(wǎng)絡(luò)安全中使用異常檢測(cè)的困難。我們計(jì)劃在未來(lái)的工作中研究異常探測(cè)器的性能。

細(xì)粒度的地面真值標(biāo)記可能是監(jiān)督學(xué)習(xí)成功的一個(gè)主要因素。正如我們所證明的,用于生成ground truth的數(shù)據(jù)標(biāo)記是衡量監(jiān)督學(xué)習(xí)算法成功與否的一個(gè)主要因素。如果可以獲得攻擊的詳細(xì)信息(例如攻擊者所接觸的目標(biāo)ip),那么分類器的性能就可以大大提高。然而,在大多數(shù)情況下,即使在運(yùn)行受控的攻擊模擬時(shí),也很難準(zhǔn)確地識(shí)別攻擊流。惡意軟件可以使用不同的協(xié)議聯(lián)系各種IP地址,但受感染的機(jī)器也會(huì)生成相當(dāng)數(shù)量的合法連接(例如,到窗口更新的連接)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容