MMCC微軟惡意軟件分類挑戰(zhàn)數據集

原文鏈接:Microsoft Malware Classification Challenge

作者:Royi Ronen等人

單位:Microsoft,CrowdStrike,Microsoft Research,Northeastern University

發(fā)表時間: 2018/2/22

摘要

Microsoft惡意軟件分類挑戰(zhàn)賽(Microsoft Malware Classification Challenge)于2015年宣布,同時發(fā)布了將近0.5 TB的巨大數據集,其中包括超過2萬個惡意軟件樣本的反匯編和字節(jié)碼。 除了在Kaggle競賽中提供服務外,數據集已成為研究惡意軟件行為建模的標準基準。 迄今為止,該數據集已被50多個研究論文引用。 在這里,我們提供引用該數據集的出版物的高級比較。 通過比較,可以簡化在該領域的潛在研究方向以及對數據集的未來性能評估。

1簡介

近年來,惡意軟件行業(yè)已成為一個龐大且組織良好的市場[45]。資金雄厚,由多個參與者組成的聯合組織會大量投資于為逃避傳統(tǒng)保護而構建的技術和功能,要求反惡意軟件廠商開發(fā)反機制以發(fā)現和停用它們。同時,它們對計算機系統(tǒng)的用戶造成嚴重的財務損失。如今,反惡意軟件所面臨的主要挑戰(zhàn)之一是需要評估大量數據的潛在惡意意圖。例如,微軟的實時反惡意軟件檢測產品可在全球超過6億臺計算機上運行[36]。這將產生數千萬的每日數據點,以分析為潛在的惡意軟件。大量不同文件的主要原因之一是,為了逃避檢測,惡意軟件作者將多態(tài)性引入了惡意組件。這意味著使用各種策略不斷修改和/或混淆屬于相同惡意軟件“家族”且具有相同形式惡意行為的惡意文件,從而使它們看起來像是許多不同的文件。

對如此大量的文件進行有效的分析和分類的第一步是將它們分組并確定它們各自的家族。此外,可以將此類分組標準應用于計算機上遇到的新文件,以將其檢測為惡意軟件并屬于某個家庭。為了促進該領域的研究,特別是在將惡意軟件文件的變種分組到其各自家族中的有效技術的開發(fā)中,Microsoft為數據科學和安全社區(qū)提供了前所未有的規(guī)模的惡意軟件數據集。在這里,我們總結了迄今為止發(fā)布的該數據集的許多用途。

2數據集


數據集中的惡意軟件家族

未壓縮時,惡意軟件數據集幾乎為1 TB的一半。它由一組代表9個不同家族的已知惡意軟件文件組成。每個惡意軟件文件都有一個標識符,一個20個字符的哈希值(唯一地標識該文件)和一個類標簽,該標簽是代表該惡意軟件可能屬于的9個家族名稱之一的整數(請參見表1)。對于每個文件,原始數據均包含文件二進制內容的十六進制表示形式,不包含標題(以確保無菌)。數據集還包括一個元數據清單,該清單是一個日志,其中包含從二進制文件中提取的各種元數據信息,例如函數調用,字符串等。這是使用IDA反匯編程序工具生成的。給參與者的最初問題是將惡意軟件分類為9個類別之一。數據集可以從Competition下載。

3 引文

比較自2015年4月競賽結束以來,已有50余篇研究論文和論文引用了競賽和數據集。在引文中,有幾篇論文不是用英語撰寫的,因而無法閱讀[9,33,6,35]。其余文章可分為兩個主要類別。第一類論文提到了執(zhí)行抽象比較的挑戰(zhàn),或者強調了機器學習對于數據量巨大的行業(yè)中惡意軟件分類的重要性[43,19,28, 47、18、38、49、44、25、53、46、21、4、57、16、17、39、50]。第二類論文對數據集進行了部分或完整評估,以驗證其針對各種任務所提出的方法的有效性和/或效率。我們在表2中列出了按發(fā)表日期排序的第二類論文。此外,我們總結了每篇論文的主要貢獻或重點,以形成更高層次的集群。特征工程,特征選擇/融合,可擴展,健壯,惡意軟件作者歸屬,檢測概念漂移,執(zhí)行測量,相似性哈希,分類技術和深度學習是本文的主要貢獻。貢獻的多樣性使數據集可以完成各種任務,幫助研究人員提供評估和比較的標準。

4結論和未來方向

在本文中,我們簡要描述了Microsoft惡意軟件分類挑戰(zhàn)數據集的特征。 該數據集正成為標準的數據集,已有50多篇論文被引用。 我們盡可能地列舉了這些參考文獻,并比較了它們對數據集的主要貢獻。 比較有助于理解現有的貢獻以及潛在的研究方向。作者旨在保持參考表的更新。 我們鼓勵社區(qū)在使用數據集時引用此論文,并向我們更新此類工作,以便可以將其添加到本文中。


在MMCC數據集上進行了部分或者完整的評估的研究論文比較
?著作權歸作者所有,轉載或內容合作請聯系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容