2017年安全數(shù)據(jù)科學(xué)領(lǐng)域的4個趨勢: 機器人、威脅情報、對抗機器學(xué)習(xí)以及深度學(xué)習(xí)是如何影響安全領(lǐng)域的

編者注:從Nikhil Buduma的《深度學(xué)習(xí)的基礎(chǔ)》開始了解深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)

安全數(shù)據(jù)科學(xué)正在蓬勃發(fā)展,有報告顯示安全分析市場將在2023年達到八十億美元的價值, 26%的增長率。這要感謝不屈不撓的網(wǎng)絡(luò)攻擊。如果你想要在2017年走在不斷涌現(xiàn)的安全威脅的前面,那么投資在正確的領(lǐng)域是很重要的。在2016年3月,我寫了一篇《2016年需要注意的4個趨勢》。而2017年的文章由我與來自Netflix的Cody Rioux合作,帶來他的平臺化視角。我們的目標(biāo)是幫助你為2017年的每一個季度形成一個計劃(例如,4個季度有4個趨勢)。對于每一個趨勢,我們都提供了一個短小精悍的理論基礎(chǔ),即為什么我們認為現(xiàn)在這個時間投資是對的;以及如何充分利用這一投資,并指明具體的工具和可用資源。

1.自動化安全響應(yīng)和協(xié)助的機器人

我們認為,安全行業(yè)將會見證以聊天機器人形式出現(xiàn)的自動和自主反應(yīng)。當(dāng)一個模型判定到相關(guān)信息時或者符合需求時,機器人將會響應(yīng)提供信息。這種響應(yīng)將會整合在目前用于與團隊成員進行溝通的事件響應(yīng)平臺里。這并不是一個新的想法,聊天機器人至少和IRC存在一樣長的時間了,但是要感謝”ChatOps”使它們流行起來。Shivon Zilis和James Cham將這稱為“2016年最大的聊天機器人爆發(fā)潮”。在他們給出的信息圖表中列出了15家正在開發(fā)自主代理機器人的公司。

為什么是現(xiàn)在?

Chris Messina(@chrismessina,哈希標(biāo)簽的發(fā)明者)最近寫了一篇名為《聊天機器人不是一時的流行,它們是一場革命》的文章。高科技組織通常處在這樣一個地位,即對于生產(chǎn)環(huán)境中的自主系統(tǒng)有著充分的信任,這使得自動化各種瑣碎的任務(wù)(包括那些在安全領(lǐng)域的任務(wù))成為可能。機器人框架主要用于開發(fā)各種溝通協(xié)作平臺,包括Slack、 IRC 以及Skype等,你很可能在日常生活和安全事件發(fā)生時已經(jīng)在使用這樣的平臺進行溝通了。這使得機器人成為在事件中快速執(zhí)行任務(wù)或是執(zhí)行和報告例行檢查(例如證書更新以及確認是否符合安全標(biāo)準(zhǔn))的理想伙伴。Jason Chan (@chanjbs)最近也發(fā)表了關(guān)于Netflix在安全方面是如何使用機器人的相關(guān)演講:從安全咨詢講到批準(zhǔn)部署更新,再到如何設(shè)定明顯的安全關(guān)鍵字等。

下一步

  • 與你的運營團隊/網(wǎng)絡(luò)運營中心談?wù)?,看看他們是否已?jīng)有了可以進行調(diào)用的解決方案。

  • 看看微軟的機器人框架、Slack機器人,或者許多IRC機器人框架之一。

  • 調(diào)研Security Monkey(Netflix的一個安全開源項目)中的自動化技術(shù),并嘗試復(fù)制它們。

2.將威脅情報與機器學(xué)習(xí)檢測相結(jié)合

威脅情報可以被認為是已知的不良行為的離散實例,或是一個折衷指標(biāo)的集合。它們是多種多樣的,可以是已知惡意文件的哈希值、僵尸網(wǎng)絡(luò)的控制服務(wù)器以及命令的IP地址,甚至是持久威脅所試用的用戶代理字符串。威脅情報長期被安全社區(qū)用于安全監(jiān)控的定點檢查,但是我們認為數(shù)據(jù)科學(xué)社區(qū)應(yīng)該在2017年將它們利用到行為檢測系統(tǒng)中去。

為什么是現(xiàn)在?

貝葉斯錯誤率是任何在給定數(shù)據(jù)集上的分類器的最基本的限制。改進錯誤率的標(biāo)準(zhǔn)方法是包含新的信息來源。我們假設(shè)威脅情報是一個簡單的網(wǎng)關(guān),并且是引入新的數(shù)據(jù)來源的第一步。

另外還有可替代的能解釋性——他們還提供了解釋警告的洞察。例如,如果你的機器學(xué)習(xí)系統(tǒng)判斷出登陸人是不正常的,且登陸的IP地址出現(xiàn)在一個“肉雞”網(wǎng)絡(luò)情報列表里,那么我們就能推測出這次登陸不正常,是一個受到感染的“肉雞”機器進行的。盡管有些玄乎且不是100%確信,但這也提供了對告警的一種好的解釋。

下一步

  • 引入威脅情報最簡單的方式是直接將威脅情報數(shù)據(jù)加入到機器學(xué)習(xí)系統(tǒng)的結(jié)果中去。而最直接的方法是將威脅情報作為一個過濾器放置在機器學(xué)習(xí)系統(tǒng)之后。

  • 另外一個選項是將它們作為二元的特征放置到訓(xùn)練集中去。這帶來額外的好處就是只要管理一份代碼。這個方法的缺點是每當(dāng)你新添加一個新的威脅情報,你需要改動一次代碼并且重新訓(xùn)練和部署你的機器學(xué)習(xí)系統(tǒng),這是很麻煩的。

在你開始威脅情報的相關(guān)實驗之前,要注意這些數(shù)據(jù)在不同的指標(biāo)上有不同級別的置信度,需要反復(fù)嘗試調(diào)整。商業(yè)威脅情報的供應(yīng)商包括Team Cymru,、iSight、?iDefense以及?Webroot。開源威脅情報項目包括Project Honeypot、Malware Domain List,而諸如?Feodo Tracker,?Zeus Tracker?和?OpenPhish?等的追蹤器是便宜的原型系統(tǒng)之選。

3.繼續(xù)投資在對抗性機器學(xué)習(xí)上

對抗機器學(xué)習(xí)是指攻擊者可以破壞機器學(xué)習(xí)系統(tǒng)從而獲利。攻擊方可以增加系統(tǒng)的誤報率到很高,使得安全分析師感到挫敗、精疲力竭?;蛘咭部梢栽黾酉到y(tǒng)的假陰性率,從而使得攻擊可以完全不被注意地通過雷達監(jiān)控。甚至可以完全控制整個安全系統(tǒng)。對抗機器學(xué)習(xí)是真實會發(fā)生的,與Ian Goodfellow一起在這一話題寫過很多論文的Nicholas Papernot曾寫過一篇很棒的博客來解釋其中的一些奧妙,其核心就是說,對抗性機器學(xué)習(xí)是非??赡馨l(fā)生的。

為什么是現(xiàn)在?

這一趨勢已經(jīng)在我2016年發(fā)表的文章中列舉過。但是考慮到熱度的提升以及可能的損害,我們認為有必要提醒我們的讀者,在2017年開始保護他們的機器學(xué)習(xí)檢測防護系統(tǒng)是有價值的。盡管安全專家之前在惡意軟件過濾領(lǐng)域中已經(jīng)預(yù)見這一趨勢,2016年還是出現(xiàn)了許多的例子,打擊了幾乎所有的大公司。首先,微軟的“Tay the Tweet”機器人不得不關(guān)停,因為它開始冒出種族方面的用詞。然后,來自康奈爾的研究人員展示了他們是如何能夠從亞馬遜和BigML偷取機器學(xué)習(xí)模型的。最后,對抗機器學(xué)習(xí)甚至出現(xiàn)在2016大選,谷歌曾經(jīng)顯示過一張總統(tǒng)候選人的圖片,上面寫著“病態(tài)的騙子”。

下一步

  • 開始對你的對外暴露的機器學(xué)習(xí)系統(tǒng)進行威脅建模,Nicholas Papernot (@nicholaspapernot)等有一些靠譜的指導(dǎo),比如這篇新論文《論安全科學(xué)以及機器學(xué)習(xí)中的隱私》。

  • 看一看cleverhans。這是一個新的庫,模擬了對于機器學(xué)習(xí)解決方案的各種類型的攻擊。

  • 在允許用戶輸入成為模型的訓(xùn)練數(shù)據(jù)之前仔細地檢查用戶輸入,特別是在線機器學(xué)習(xí)的場景下。

4.深度學(xué)習(xí)用于安全

深度學(xué)習(xí)使以與人類相當(dāng)?shù)乃絹硗瓿梢恍┤蝿?wù)成為可能,從開車到以你最喜歡的藝術(shù)家的風(fēng)格來繪畫。有時甚至是完全超越人類的水平,比如說下圍棋。諸如流量識別、惡意軟件識別、命令檢測、服務(wù)器控制等安全任務(wù)已經(jīng)在向這一趨勢發(fā)展。而神經(jīng)網(wǎng)絡(luò)也具有無監(jiān)督學(xué)習(xí)的技術(shù)能力,可以自動編碼和強化學(xué)習(xí),這為諸如異常檢測和建立自治系統(tǒng)等任務(wù)提供了即使沒有標(biāo)記數(shù)據(jù)也可用的解決方案。簡而言之,如果你需要人類級別的性能并且有相當(dāng)多的數(shù)據(jù)和處理它們的計算資源,那么你可能想要利用這一趨勢來自動化那些曾經(jīng)被視為只有人類可以完成的任務(wù)。

為什么是現(xiàn)在?

深度學(xué)習(xí)的實現(xiàn)層一度淪為數(shù)據(jù)科學(xué)家的機器拼湊上包含數(shù)百行Theano代碼的python腳本。然而早已不是這樣了,產(chǎn)品級深度學(xué)習(xí)組件的工具是應(yīng)有盡有,無論你的軟件棧是什么。并且用來訓(xùn)練大型模型的分布式計算資源也是司空見慣的,你很可能已經(jīng)有一個可用的Spark或者Hadoop集群。你可能也正在生成足夠的數(shù)據(jù)來訓(xùn)練一個數(shù)據(jù)饑餓的算法,例如深度神經(jīng)網(wǎng)絡(luò)。集合分布式計算集群上的數(shù)據(jù)和計算資源,再加上可以使得用戶能夠簡單地訓(xùn)練、預(yù)測、監(jiān)控和維護深度學(xué)習(xí)模型的產(chǎn)品級軟件包,意味著把深度學(xué)習(xí)整合到你的產(chǎn)品的威脅監(jiān)控系統(tǒng)中是前所未有得簡單。

下一步

  • 如果你不了解深度學(xué)習(xí),在http://course.fast.ai/看看Jeremy Howard (@jeremyphoward)的新課程,務(wù)實、關(guān)注代碼,并且非常實用。

  • 調(diào)研你的技術(shù)棧中的神經(jīng)網(wǎng)絡(luò)相關(guān)的包。Python (Keras,?Lasagne,?Theano,?Tensorflow), Java (deeplearning4j), 或者 .NET (accord)。你可能更愿意將這一職責(zé)交給一個管理服務(wù),例如Azure ML。

  • 一旦你選定了軟件包,動手嘗試一下Cyber Defense Exercise數(shù)據(jù)集。

  • 調(diào)研惡意軟件識別的研究,可以從以下論文開始:《?Deep Neural Network-Based Malware Detection Using Two-Dimensional Binary Program Features?》和《Droid-Sec: Deep learning in android malware detection》。

總地來說,對抗機器學(xué)習(xí)將繼續(xù)成為重要焦點,而正如它在其他領(lǐng)域所做的那樣,深度神經(jīng)網(wǎng)絡(luò)將開始在安全數(shù)據(jù)科學(xué)領(lǐng)域產(chǎn)生影響力。與此同時,分析師的日常工作將更簡單,通過整合威脅情報和通過帶有“安全口味”的聊天運營機器人盡可能自動化所有任務(wù)。進一步的自動化任務(wù)可以只執(zhí)行一次并且自動地通過聊天機器人將信息傳播到相關(guān)群體中。

我們樂意聽取你對于安全數(shù)據(jù)科學(xué)的趨勢預(yù)測的想法,歡迎通過推特@ram_ssk和?@codyrioux聯(lián)系我們,并加入到討論中來。

Ram Shankar是微軟Azure的安全數(shù)據(jù)科學(xué)團隊的安全數(shù)據(jù)總監(jiān)。他的主要關(guān)注點是對海量安全日志進行建模來發(fā)現(xiàn)惡意活動。他的成果曾出現(xiàn)在核心安全會議(像DerbyCon、MIRCon、BlueHat等),以及大數(shù)據(jù)會議(像Strata+Hadoop 世界大會)和機器學(xué)習(xí)實踐大會。Ram畢業(yè)于卡內(nèi)基梅隆大學(xué)電氣與計算機工程專業(yè),并獲得工程與技術(shù)創(chuàng)新管理碩士。

Cody Rioux是一名高級軟件工程師,設(shè)計和開發(fā)實時機器學(xué)習(xí)系統(tǒng)來支持Netflix在AWS上的高可靠和可用。Cody曾參與過Netflix的異常值檢測、自動化Hystrix部署等項目,實現(xiàn)了針對實時流式數(shù)據(jù)查詢的查詢語言。Cody的成果在Netflix的技術(shù)博客、一些集會、Strata+Hadoop世界大會以及PyData上發(fā)表過。Cody畢業(yè)于萊斯布里奇大學(xué),獲得計算機科學(xué)學(xué)士學(xué)位。



閱讀原文:http://2431145941.lofter.com/post/1e77c193_e2434da
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容