人妻成人无码一区,国产精品熟妇区

來(lái)源：https://arxiv.org/pdf/1907.04846.pdf

摘要

機(jī)器學(xué)習(xí)(ML)開(kāi)始廣泛應(yīng)用于網(wǎng)絡(luò)安全設(shè)置中，以縮短網(wǎng)絡(luò)攻擊的檢測(cè)周期。到目前為止，大多數(shù)基于ml的系統(tǒng)要么是私有的，要么對(duì)特性表示和機(jī)器學(xué)習(xí)模型做出特定的選擇。由于目前還沒(méi)有公開(kāi)的基準(zhǔn)數(shù)據(jù)集，很難評(píng)估這些技術(shù)是否成功。在本文中，我們?yōu)樵诰W(wǎng)絡(luò)安全中使用監(jiān)督ML提供了具體的指導(dǎo)和建議。作為一個(gè)案例研究，我們考慮了僵尸網(wǎng)絡(luò)檢測(cè)的網(wǎng)絡(luò)流量數(shù)據(jù)。在我們的發(fā)現(xiàn)中，我們強(qiáng)調(diào):(1)特征表示應(yīng)該考慮攻擊特征;(2)集成模型非常適合處理類不平衡問(wèn)題;(3) ground truth的粒度是這些方法成功的重要因素。

1介紹

從投機(jī)取巧的惡意活動(dòng)到復(fù)雜的國(guó)家資助的運(yùn)動(dòng)，各種各樣的威脅威脅著工業(yè)、學(xué)術(shù)界和政府的組織。這些攻擊通常會(huì)導(dǎo)致重要信息的丟失，并影響消費(fèi)者和企業(yè)。值得注意的例子有:2017年的Equifax數(shù)據(jù)泄露事件，以及2015年的Anthem醫(yī)保運(yùn)動(dòng)，導(dǎo)致數(shù)百萬(wàn)美國(guó)公民的個(gè)人財(cái)務(wù)和醫(yī)療記錄遭到泄露。

迄今為止，大多數(shù)企業(yè)在其環(huán)境中部署了許多安全控制，并應(yīng)用最佳實(shí)踐(如修補(bǔ)脆弱的系統(tǒng)、使用威脅情報(bào)服務(wù)和端點(diǎn)掃描)來(lái)防范網(wǎng)絡(luò)威脅。在大多數(shù)組織中，監(jiān)控工具要么部署在網(wǎng)絡(luò)上(例如，網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)、web代理、防火墻)，要么部署在終端主機(jī)上(例如，殺毒軟件、端點(diǎn)代理)。隨著大型企業(yè)收集的安全日志的可用性，機(jī)器學(xué)習(xí)(ML)開(kāi)始成為面對(duì)日益復(fù)雜的網(wǎng)絡(luò)攻擊的重要防御工具。用于網(wǎng)絡(luò)數(shù)據(jù)的ML技術(shù)包括檢測(cè)惡意域的系統(tǒng)(如[1,5,2])，檢測(cè)惡意軟件傳遞的方法(如[9])或命令控制通信的方法(如4,11,8,12)，檢測(cè)惡意網(wǎng)頁(yè)的技術(shù)(如[15])，以及企業(yè)威脅檢測(cè)的各種工業(yè)產(chǎn)品(如[13,6,10,7,16])。

在縮短惡意軟件檢測(cè)周期方面，ML有很大的潛力，但這些算法往往有一些缺點(diǎn)。特別是，Sommer和Paxson[14]強(qiáng)調(diào)了在網(wǎng)絡(luò)安全的操作設(shè)置中使用ML的困難。他們發(fā)現(xiàn)的主要限制是:(1)ML通過(guò)學(xué)習(xí)帶標(biāo)記的示例擅長(zhǎng)監(jiān)督任務(wù)，而在網(wǎng)絡(luò)安全中大多數(shù)數(shù)據(jù)是無(wú)標(biāo)記的。(2) ML錯(cuò)誤(特別是誤報(bào))的代價(jià)很高，因?yàn)榫瘓?bào)需要由安全分析人員進(jìn)行調(diào)查。(3)正常運(yùn)行條件下，網(wǎng)絡(luò)流量多樣性較高。(4)由于缺乏標(biāo)準(zhǔn)的基準(zhǔn)數(shù)據(jù)集，執(zhí)行可靠的評(píng)估通常很有挑戰(zhàn)性。

本文介紹了在網(wǎng)絡(luò)安全中使用有監(jiān)督的ML的一些具體的指導(dǎo)和建議。作為一個(gè)案例研究，我們考慮了僵尸網(wǎng)絡(luò)檢測(cè)的網(wǎng)絡(luò)流量數(shù)據(jù)。我們利用一個(gè)公共數(shù)據(jù)集(CTU-13)，其中包括從大學(xué)校園收集的網(wǎng)絡(luò)流量和對(duì)大學(xué)網(wǎng)絡(luò)發(fā)起的攻擊。在我們的研究結(jié)果中，我們強(qiáng)調(diào)以下幾點(diǎn):

?特性表示應(yīng)該考慮攻擊的細(xì)節(jié)。在標(biāo)準(zhǔn)的特征表示中，我們將連接級(jí)別的特征(直接從Bro日志中提取)與聚合的流量統(tǒng)計(jì)和時(shí)間特征(使用固定時(shí)間窗口)進(jìn)行比較。

?類不平衡是一個(gè)主要的問(wèn)題,阻礙了邏輯回歸等簡(jiǎn)單的線性模型的性能。

?像梯度增強(qiáng)這樣的集成方法具有能夠很好地處理類不平衡的內(nèi)置技術(shù)。與線性模型相比，它們?cè)趨^(qū)分惡意連接和良性連接方面取得了更好的性能。

?數(shù)據(jù)標(biāo)記的粒度(ground truth)會(huì)對(duì)分類指標(biāo)產(chǎn)生實(shí)質(zhì)性的影響。如果可用，在單個(gè)網(wǎng)絡(luò)連接級(jí)別獲得的ground truth可以提高監(jiān)督ML模型的性能。

2背景與威脅模型

2.1機(jī)器學(xué)習(xí)用于網(wǎng)絡(luò)流量分類

網(wǎng)絡(luò)入侵檢測(cè)是一個(gè)非常活躍的研究領(lǐng)域。Snort等傳統(tǒng)系統(tǒng)基于人工生成的規(guī)則來(lái)檢測(cè)已知的惡意軟件變體。

最近，ML在擴(kuò)展基于規(guī)則的系統(tǒng)方面被證明是有價(jià)值的。ML有可能檢測(cè)出更高級(jí)的惡意活動(dòng)，從而避開(kāi)基于規(guī)則的系統(tǒng)。ML成功應(yīng)用于各類網(wǎng)絡(luò)數(shù)據(jù)的惡意軟件檢測(cè)包括:

?使用被動(dòng)DNS數(shù)據(jù)的域名信譽(yù)系統(tǒng)，如Notos[1]和EXPOSURE[5]。

?基于NetFlow數(shù)據(jù)的命令控制檢測(cè)，如DISCLOSURE[4]和BotFinder[17]。

?使用ExecScent[11]、BAYWATCH[8]、MADE[12]等web代理日志進(jìn)行惡意通信檢測(cè)。

Bro是一個(gè)開(kāi)源的網(wǎng)絡(luò)監(jiān)控代理，它收集大量的網(wǎng)絡(luò)日志。這里我們利用Bro連接日志，它記錄了圖1中包含的字段。這些參數(shù)包括TCP連接時(shí)間戳、持續(xù)時(shí)間、源IP和端口、目標(biāo)IP和端口、發(fā)送和接收的數(shù)據(jù)包數(shù)量、發(fā)送和接收的字節(jié)數(shù)以及連接狀態(tài)。對(duì)于UDP，每個(gè)UDP包都會(huì)生成一個(gè)條目(因?yàn)椴淮嬖赨DP連接)。

2.2問(wèn)題陳述和威脅模型

ML算法在檢測(cè)僵尸網(wǎng)絡(luò)或惡意域的網(wǎng)絡(luò)流量分類任務(wù)中取得了成功。但是，大多數(shù)ML方法都是用一種特別的方式設(shè)計(jì)的，并且目前還沒(méi)有關(guān)于這個(gè)領(lǐng)域的原則方法的指南。我們有興趣填補(bǔ)這一空白，并就幾個(gè)一般原則提供建議，應(yīng)該指導(dǎo)ML設(shè)計(jì)僵尸網(wǎng)絡(luò)和惡意軟件檢測(cè)。我們專門(mén)解決從網(wǎng)絡(luò)日志(由Bro日志生成)檢測(cè)僵尸網(wǎng)絡(luò)的問(wèn)題，但是我們的方法可以與其他網(wǎng)絡(luò)數(shù)據(jù)類型(如NetFlow、pcap、防火墻)一起使用。我們想回答的一些研究問(wèn)題如下:

?原始網(wǎng)絡(luò)數(shù)據(jù)能在ML算法中有效使用嗎?

?哪種特征表示最適合應(yīng)用ML分類算法?

?哪種分類器在處理大量不平衡的網(wǎng)絡(luò)安全數(shù)據(jù)集時(shí)性能最好?

?標(biāo)記數(shù)據(jù)對(duì)ground truth生成有什么影響?

我們假設(shè)收集網(wǎng)絡(luò)數(shù)據(jù)的監(jiān)視代理不在攻擊者的控制之下。我們還假設(shè)攻擊者不能篡改收集到的網(wǎng)絡(luò)日志。因此，攻擊者無(wú)法訪問(wèn)記錄數(shù)據(jù)的存儲(chǔ)設(shè)備。

3 用于僵尸網(wǎng)絡(luò)檢測(cè)的ML案例研究

3.1數(shù)據(jù)集

我們利用了一個(gè)僵尸網(wǎng)絡(luò)流量的數(shù)據(jù)集，該數(shù)據(jù)集是2011年在捷克共和國(guó)的反恐組大學(xué)捕獲的。數(shù)據(jù)集包括13個(gè)場(chǎng)景，每個(gè)場(chǎng)景都包括合法的流量，以及各種攻擊，如垃圾郵件、端口掃描、DDOS和點(diǎn)擊欺詐。數(shù)據(jù)集還包括一個(gè)僵尸網(wǎng)絡(luò)ip列表，可用于標(biāo)記流量。

由于ML分類需要使用類似的攻擊數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試，所以我們決定使用6個(gè)場(chǎng)景的子集。其中，3個(gè)場(chǎng)景由僵尸網(wǎng)絡(luò)Neris生成(執(zhí)行垃圾郵件和點(diǎn)擊欺詐活動(dòng))，3個(gè)場(chǎng)景由僵尸網(wǎng)絡(luò)Rbot生成(執(zhí)行DDoS活動(dòng))。統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表1。對(duì)于其他僵尸網(wǎng)絡(luò)，只有一種可能的情況，這就排除了監(jiān)督ML的使用。

在傳統(tǒng)的ML中，交叉驗(yàn)證是評(píng)估模型泛化程度的一種著名方法。k-fold交叉驗(yàn)證將數(shù)據(jù)隨機(jī)分成k個(gè)分區(qū)，在其中的k?1上訓(xùn)練一個(gè)模型，并在第k個(gè)分區(qū)上求值。隨機(jī)分割日志可以在訓(xùn)練集和測(cè)試集之間產(chǎn)生高度相關(guān)的數(shù)據(jù)。相反，我們?cè)趦蓚€(gè)場(chǎng)景上進(jìn)行訓(xùn)練，并在第三個(gè)(獨(dú)立的)場(chǎng)景上進(jìn)行測(cè)試，對(duì)兩個(gè)僵尸網(wǎng)絡(luò)中的每一個(gè)重復(fù)實(shí)驗(yàn)3次。因此，我們保證測(cè)試數(shù)據(jù)獨(dú)立于訓(xùn)練。這種將數(shù)據(jù)分解為訓(xùn)練和測(cè)試的方法(基于獨(dú)立的攻擊場(chǎng)景)更適合這種設(shè)置。在其他上下文中，需要考慮環(huán)境的細(xì)節(jié)。

3.2概述

我們的系統(tǒng)架構(gòu)如圖2所示。我們的系統(tǒng)處理在組織(校園或企業(yè)網(wǎng)絡(luò))邊界收集的網(wǎng)絡(luò)日志。數(shù)據(jù)采集完成后，利用特征提取層對(duì)數(shù)據(jù)進(jìn)行ML訓(xùn)練。許多分類算法用于訓(xùn)練分類器并優(yōu)化標(biāo)準(zhǔn)指標(biāo)，如精度、召回率、F1分?jǐn)?shù)和AUC。將分類器應(yīng)用于新的測(cè)試場(chǎng)景，以評(píng)估其通用性并預(yù)測(cè)可疑的網(wǎng)絡(luò)活動(dòng)。我們相信這個(gè)框架足夠通用，可以適用于其他環(huán)境。

3.3特征提取

我們對(duì)不同的特征表示進(jìn)行了實(shí)驗(yàn)，如下所述。

連接級(jí)表示。這種表示直接從原始連接日志中提取特性。我們考慮所有的連接，其中ip要么是id:origh或id:desth，我們直接使用Bro連接日志中的字段作為特性:

對(duì)于分類特性(例如proto)，我們使用標(biāo)準(zhǔn)onehot編碼。在這個(gè)表示中，我們?cè)谝淮螣峋幋a后獲得了26個(gè)特征。

聚合流量統(tǒng)計(jì)數(shù)據(jù)。接下來(lái)，我們將探討時(shí)間聚合獲得的特性是否比原始特性更強(qiáng)大。我們考慮一個(gè)長(zhǎng)度為T(mén)的時(shí)間間隔，在這個(gè)時(shí)間間隔上，我們定義了所有連接上的聚合特性，其中ip要么是id:orig h，要么是id:dest h。

在定義我們的特性時(shí)，一個(gè)重要的考慮是生成固定數(shù)量的特性，與特定主機(jī)上的流量無(wú)關(guān)。我們的第一次嘗試，我們考慮IP與之通信的所有目的IP地址的集合:SIP = {IP1;:::;;IPn}。根據(jù)這些定義，我們可以定義ip與之通信的/24目的子網(wǎng):Ssubnet = {Sub1;:::;;Subm}如果我們定義每個(gè)目的地或子網(wǎng)的聚合特性，當(dāng)主機(jī)訪問(wèn)新的ip或新的目的地時(shí)，我們將遇到一個(gè)問(wèn)題。在這種情況下，我們需要向表示添加新特性，這在實(shí)踐中是不可取的。

為了緩解這個(gè)問(wèn)題，我們通過(guò)目標(biāo)端口(對(duì)應(yīng)于應(yīng)用程序或網(wǎng)絡(luò)服務(wù))來(lái)定義聚合的特性。具體來(lái)說(shuō)，我們定義了一組17個(gè)流行的應(yīng)用程序端口(例如，HTTP - 80、HTTPS - 443、SSH - 22、DNS -53)。然后我們采用模塊化方法。我們選擇了少量的操作符(Distinct、Sum、Min、Max)，并將它們應(yīng)用于每個(gè)目的端口的connect .log中的字段。表2描述了這些特性。我們分別為傳出和傳入連接生成這些特性。此外，我們還添加了一些功能來(lái)捕獲與外部IP目的地的通信模式(例如，每個(gè)傳輸協(xié)議的連接數(shù)、源和目標(biāo)端口的數(shù)量、目標(biāo)IP的數(shù)量等)。在這個(gè)表示中，我們獲得了756個(gè)聚合的流量特征。

時(shí)間特性。將節(jié)點(diǎn)間到達(dá)特征定義為節(jié)點(diǎn)間通信時(shí)間分布的平均值、標(biāo)準(zhǔn)差、中位數(shù)、最小值和最大值，并考慮時(shí)間間隔T與節(jié)點(diǎn)間連接級(jí)特征的集合。每個(gè)內(nèi)部節(jié)點(diǎn)都有兩組這樣的特性:一組用于節(jié)點(diǎn)作為通信源的事件(傳出)，另一組用于節(jié)點(diǎn)作為目標(biāo)的事件(傳入)。這些通信通過(guò)公共端口進(jìn)行聚合。因此,在每個(gè)時(shí)間間隔T,我將有一個(gè)節(jié)點(diǎn)在表3中列出的inter-arrival特性。在這個(gè)表示中，我們獲得了180個(gè)特征。

3.4ML分類和標(biāo)記

地面真相標(biāo)簽CTU-13數(shù)據(jù)集提供僵尸網(wǎng)絡(luò)IP地址列表。我們的主要觀察之一是，攻擊在整個(gè)數(shù)據(jù)收集期間不是活動(dòng)的。我們發(fā)現(xiàn)標(biāo)記數(shù)據(jù)的粒度在結(jié)果中起著很大的作用。我們嘗試了兩個(gè)層次的粒度:

粗粒度標(biāo)記:在整個(gè)場(chǎng)景期間，我們將僵尸網(wǎng)絡(luò)ip生成的所有連接日志標(biāo)記為惡意

細(xì)粒度標(biāo)記:對(duì)于Rbot攻擊(DDoS的一個(gè)實(shí)例)，我們獲得受害機(jī)器的IP地址。我們使用它來(lái)識(shí)別連接到受害IP的攻擊流。對(duì)于所有的特性表示，如果時(shí)間窗口中至少有一個(gè)攻擊日志事件，則將時(shí)間窗口標(biāo)記為惡意。

細(xì)粒度標(biāo)記通常很難獲得，因?yàn)樗且粋€(gè)手動(dòng)過(guò)程，但當(dāng)它可用時(shí)，它大大提高了ML在僵尸網(wǎng)絡(luò)檢測(cè)中的性能。

我們考慮了幾個(gè)著名的ML分類模型，包括邏輯回歸、隨機(jī)森林和梯度增強(qiáng)。我們使用幾個(gè)指標(biāo)來(lái)評(píng)估ML算法的性能(精度、召回率、F1分?jǐn)?shù)和AUC)。由于該數(shù)據(jù)集的不平衡程度相當(dāng)大(惡意樣本與合法樣本的比例低至Neris為1:134,Rbot為1:401，特征以30秒的間隔聚合)，因此準(zhǔn)確性總是相當(dāng)高(在我們所有的實(shí)驗(yàn)中都高于0.96)。我們對(duì)少數(shù)(惡意)類的結(jié)果感興趣，因此精確度、召回率、F1分?jǐn)?shù)和AUC是更好的指示器，可以用來(lái)指示分類器在檢測(cè)僵尸網(wǎng)絡(luò)時(shí)的表現(xiàn)。

對(duì)于ML分類器，我們對(duì)幾個(gè)超參數(shù)執(zhí)行網(wǎng)格搜索，以選擇在我們的設(shè)置中表現(xiàn)最好的模型。對(duì)于隨機(jī)森林，我們選擇{10;50;100;200}中的樹(shù)的數(shù)量，發(fā)現(xiàn)100棵樹(shù)的效果最好。對(duì)于梯度增強(qiáng)，我們?cè)趝50;100;200}中改變估計(jì)量的數(shù)量，在{3;5;7}中改變每棵樹(shù)的最大深度，在{0:01;0:05;0:1}中改變學(xué)習(xí)率。我們選擇了100個(gè)最大深度為3的估計(jì)量，學(xué)習(xí)率為0.05。對(duì)于邏輯回歸，我們使用L1或Lasso正則化來(lái)減少空間維度。

4實(shí)驗(yàn)評(píng)價(jià)

在我們的實(shí)驗(yàn)評(píng)估期間，我們想回答幾個(gè)研究問(wèn)題，我們將在下面詳細(xì)說(shuō)明。哪個(gè)特性表現(xiàn)最好?我們比較了不同的特性表示(連接級(jí)表示、聚合的流量統(tǒng)計(jì)和時(shí)間特性)。在這個(gè)實(shí)驗(yàn)中，我們使用100棵樹(shù)的隨機(jī)森林分類器和一個(gè)30秒的時(shí)間窗口進(jìn)行聚集。

Neris的結(jié)果如表4所示，它們顯示在所有感興趣的指標(biāo)上，聚合的特性(流量統(tǒng)計(jì)和時(shí)間)的性能顯著優(yōu)于直接從Bro日志中提取的原始特性。例如，在場(chǎng)景2和場(chǎng)景9上進(jìn)行訓(xùn)練并在場(chǎng)景1上進(jìn)行測(cè)試時(shí)，連接特性的F1得分為0.65，而聚合特性的F1得分為0.98。當(dāng)我們同時(shí)考慮流量和時(shí)間特性時(shí)，與只使用聚合的流量特性相比，我們沒(méi)有發(fā)現(xiàn)重大的區(qū)別。

細(xì)粒度標(biāo)記的Rbot結(jié)果見(jiàn)表5。在這里，基于連接的特性執(zhí)行得非常好。原因是這是一種DDoS攻擊，所有發(fā)送給受害者的包都是相同的。然而，流量統(tǒng)計(jì)和時(shí)間特征也表現(xiàn)良好。例外情況是場(chǎng)景4和場(chǎng)景11的訓(xùn)練和場(chǎng)景10的測(cè)試。在這種情況下，使用30秒聚合進(jìn)行訓(xùn)練的僵尸網(wǎng)絡(luò)樣本數(shù)量非常少(142)，而原始數(shù)據(jù)中的僵尸網(wǎng)絡(luò)樣本數(shù)量要多得多(378,252)。

改變時(shí)間窗口的影響是什么?在這里，我們驗(yàn)證聚合時(shí)間窗口的選擇。表6和圖3顯示了將時(shí)間窗口從1秒更改為600秒的結(jié)果。30秒和60秒時(shí)間窗口顯示了類似的結(jié)果，并且它們?cè)诖蠖鄶?shù)情況下表現(xiàn)良好。除了在場(chǎng)景1上測(cè)試之外，窗口大小10的性能也很好。當(dāng)時(shí)間窗口超過(guò)120秒時(shí)，結(jié)果開(kāi)始變差。懷疑這是因?yàn)樵谳^大的聚集窗口的攻擊流量的小樣本，以及合法流量中的附加噪聲。通常，選擇聚合的最佳時(shí)間窗口與攻擊有關(guān)。我們建議使用交叉驗(yàn)證來(lái)選擇時(shí)間窗口的最佳值。根據(jù)這些結(jié)果，我們?yōu)槭Ｏ碌膶?shí)驗(yàn)選擇了一個(gè)30秒的時(shí)間窗口。

不同ML模型的影響是什么?一個(gè)重要的觀察是，網(wǎng)絡(luò)安全的不平衡數(shù)量非常大(正如之前的工作所觀察到的[3,12])。眾所周知，集成分類器，如隨機(jī)森林和提高處理不平衡比簡(jiǎn)單的模型要好得多。我們通過(guò)使用三個(gè)不同的分類器來(lái)測(cè)試這個(gè)假設(shè):邏輯回歸，隨機(jī)森林，梯度增強(qiáng)。我們將聚合時(shí)間窗口固定為30秒，并使用流量統(tǒng)計(jì)和時(shí)間特性。

Neris的三個(gè)分類器結(jié)果如表7所示，精度召回曲線如圖4所示。我們實(shí)驗(yàn)的三種模型都表現(xiàn)得相對(duì)較好。兩種集成方法都比logistic回歸模型有更好的表現(xiàn)，在所有場(chǎng)景下F1得分都在0.94到0.98之間。隨機(jī)森林和梯度增強(qiáng)的區(qū)別是難以察覺(jué)的，它們都是強(qiáng)有力的分類模型。

這些模型是可解釋的嗎?為了理解ML模型學(xué)習(xí)到的內(nèi)容，我們計(jì)算了Neris和Rbot的隨機(jī)森林分類器的特征重要性(使用聚合的流量統(tǒng)計(jì)和30秒窗口的定時(shí)特性)。結(jié)果見(jiàn)表8。有趣的是，我們觀察到分類器識(shí)別與攻擊相關(guān)的特征。Neris是一個(gè)垃圾郵件僵尸網(wǎng)絡(luò)，它的大部分活動(dòng)都使用端口25，這使得諸如不同的源端口和端口25上的中間到達(dá)包時(shí)間這樣的特性變得非常重要。相比之下，Rbot是一個(gè)使用不同端口進(jìn)行攻擊的DDoS僵尸網(wǎng)絡(luò)。例如UDP flood使用的是端口161，分類器正確判斷出端口161上的inter-arrival packet timing的標(biāo)準(zhǔn)差是最重要的特征。

這些結(jié)果顯示了我們的框架的靈活性和泛化不同攻擊模式的能力。我們定義了一組936個(gè)通用特性，可用于各種僵尸網(wǎng)絡(luò)攻擊。對(duì)于我們實(shí)驗(yàn)的兩個(gè)不同的僵尸網(wǎng)絡(luò)，ML模型識(shí)別出與攻擊相關(guān)的最相關(guān)特征，而不需要人類專家來(lái)明確定位這些特征。隨機(jī)森林等模型為特征重要性提供了標(biāo)準(zhǔn)的度量標(biāo)準(zhǔn)，與缺乏可解釋性的深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)相比，它們?cè)谀Ｐ涂山忉屝苑矫婢哂忻黠@的優(yōu)勢(shì)。在網(wǎng)絡(luò)安全中，可解釋性非常重要，因?yàn)榇蠖鄶?shù)時(shí)候，人類專家都會(huì)分析ML系統(tǒng)的警報(bào)。

標(biāo)記流準(zhǔn)確的影響是什么?我們做了一個(gè)實(shí)驗(yàn)來(lái)測(cè)試數(shù)據(jù)標(biāo)記的粒度如何影響分類結(jié)果。對(duì)于Rbot DDoS僵尸網(wǎng)絡(luò)，我們可以訪問(wèn)受害機(jī)器的IP地址，因此我們可以確定哪些連接是僵尸網(wǎng)絡(luò)相關(guān)的。我們將細(xì)粒度標(biāo)記稱為僅將僵尸網(wǎng)絡(luò)連接標(biāo)記為惡意IP的過(guò)程。我們將粗粒度標(biāo)記稱為將僵尸網(wǎng)絡(luò)IP發(fā)起的所有連接標(biāo)記為惡意連接的過(guò)程。

表9顯示了隨機(jī)森林細(xì)粒度標(biāo)記和粗粒度標(biāo)記的結(jié)果，以及每30秒聚合一次的特征梯度增強(qiáng)分類器的結(jié)果。結(jié)果表明，細(xì)粒度標(biāo)記比粗粒度標(biāo)記具有更好的分類性能。例如，在場(chǎng)景10和11上進(jìn)行訓(xùn)練，并在場(chǎng)景4上進(jìn)行測(cè)試時(shí)，粗粒度標(biāo)記的F1分?jǐn)?shù)為0.44，而細(xì)粒度標(biāo)記的F1分?jǐn)?shù)為完美。這兩個(gè)分類器在這里對(duì)細(xì)粒度標(biāo)記執(zhí)行類似的操作。

5教訓(xùn)和一般建議

基于我們對(duì)來(lái)自Bro日志的僵尸網(wǎng)絡(luò)分類的案例研究，我們強(qiáng)調(diào)了幾個(gè)我們認(rèn)為適用于ML用于網(wǎng)絡(luò)安全的其他環(huán)境的指導(dǎo)原則。需要評(píng)估多個(gè)特性表示。直接從原始數(shù)據(jù)(如Bro連接日志)提取的特征并不總是得到最優(yōu)的表示。在我們對(duì)內(nèi)部IP地址進(jìn)行分類的設(shè)置中，有一種表現(xiàn)很好，那就是按時(shí)間窗口和端口號(hào)進(jìn)行特性聚合。我們還觀察到，特征表示取決于可用的訓(xùn)練數(shù)據(jù)量。由于惡意類和良性類之間存在很大的不平衡，因此更小的時(shí)間窗口更適合聚合。然而，正確的特征表示和選擇特征聚合的時(shí)間窗口取決于攻擊類型。我們建議評(píng)估多個(gè)特性表示。

模型的可解釋性。提供可解釋性的模型是網(wǎng)絡(luò)安全的首選，因?yàn)榘踩治鰩熜枰{(diào)查ML系統(tǒng)發(fā)出的警報(bào)。理解為什么流被標(biāo)記為惡意流可以顯著加快調(diào)查速度。我們展示了如何通過(guò)識(shí)別最相關(guān)的特征來(lái)解釋隨機(jī)森林分類器，這些特征清楚地提供了關(guān)于僵尸網(wǎng)絡(luò)活動(dòng)的見(jiàn)解。

數(shù)據(jù)不平衡對(duì)監(jiān)督學(xué)習(xí)提出了挑戰(zhàn)。數(shù)據(jù)的不平衡給網(wǎng)絡(luò)安全分類帶來(lái)了巨大的挑戰(zhàn)。簡(jiǎn)單的模型如線性模型不能很好地處理階級(jí)不平衡。結(jié)果表明，即使在高度不平衡的情況下，隨機(jī)森林和梯度增強(qiáng)等集成模型也能取得較好的效果。例如，在1:134的不平衡情況下(對(duì)Neris場(chǎng)景2進(jìn)行測(cè)試時(shí))，我們通過(guò)梯度增強(qiáng)獲得了0.97的精確度和0.95的召回率。

另一種分類方法是使用異常檢測(cè)模型，該模型從合法的類中學(xué)習(xí)，并將攻擊識(shí)別為異常。然而，Sommer和Paxson廣泛地討論了在網(wǎng)絡(luò)安全中使用異常檢測(cè)的困難。我們計(jì)劃在未來(lái)的工作中研究異常探測(cè)器的性能。

細(xì)粒度的地面真值標(biāo)記可能是監(jiān)督學(xué)習(xí)成功的一個(gè)主要因素。正如我們所證明的，用于生成ground truth的數(shù)據(jù)標(biāo)記是衡量監(jiān)督學(xué)習(xí)算法成功與否的一個(gè)主要因素。如果可以獲得攻擊的詳細(xì)信息(例如攻擊者所接觸的目標(biāo)ip)，那么分類器的性能就可以大大提高。然而，在大多數(shù)情況下，即使在運(yùn)行受控的攻擊模擬時(shí)，也很難準(zhǔn)確地識(shí)別攻擊流。惡意軟件可以使用不同的協(xié)議聯(lián)系各種IP地址，但受感染的機(jī)器也會(huì)生成相當(dāng)數(shù)量的合法連接(例如，到窗口更新的連接)。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

論惡意網(wǎng)絡(luò)流量分類的機(jī)器學(xué)習(xí)模型設(shè)計(jì)

論惡意網(wǎng)絡(luò)流量分類的機(jī)器學(xué)習(xí)模型設(shè)計(jì)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

論惡意網(wǎng)絡(luò)流量分類的機(jī)器學(xué)習(xí)模型設(shè)計(jì)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av