看了一篇文章,感覺全篇都是干貨 學習ing 轉(zhuǎn)載自如何分析賬號異常?看這里!
購物、支付、游戲、社交軟件帳號被盜的新聞屢見不鮮,危害之大可想而知!
常用的網(wǎng)絡(luò)帳號,主機帳號被盜可能會造成信息泄露,資金被轉(zhuǎn)走,或者被作為跳板對重要資產(chǎn)進行一系列的攻擊行為。這些損失由誰來負責,很多行業(yè)沒有明確的認定和追查方法,因而最大的受害者往往是用戶本身。
一個企業(yè)有很多員工,每個人有很多類型的帳號。由于全體人員帳號總體數(shù)目較多,部分帳號被盜后,當造成明顯的損失時,很容易被發(fā)現(xiàn),可以采取補救措施。 但沒有造成明顯的損失時,有可能很長時間都不會被發(fā)現(xiàn),就會被攻擊者長期利用,危害可能更大。
由于帳號權(quán)限的區(qū)別,很難簡單判斷多大范圍的活動程度被認為有違規(guī)行為,由于業(yè)務的復雜性,也很難準確地判斷帳號是處于正常狀態(tài)還是異常狀態(tài)。
以下,我們將利用統(tǒng)計規(guī)律和機器學習的原理,通過FEA(有限元分析) 建立相應的數(shù)據(jù)模型,來分析帳號的異常情況。
一、對帳號的相關(guān)數(shù)據(jù)建模
先要對歷史數(shù)據(jù)進行分析和學習,刻畫和建立正常行為模型。
建模,一般采用時間序列和馬爾柯夫過程等方法。分析帳號的訪問頻率,在線持續(xù)時間,常用的登錄時間段,特定內(nèi)容的訪問數(shù)據(jù)量等因素,根據(jù)不同方面所具有的行為特征,建立正常行為模型。
正常模型建立好以后,可以分析檢測用戶實際活動與正常模型偏離度,是否在一定的閾值之內(nèi),對用戶的行為進行決策推斷,發(fā)現(xiàn)行為是否有異常。
1、訪問頻率的模型
根據(jù)歷史登錄數(shù)據(jù),結(jié)合相關(guān)的因素,建立時間序列模型。

2、活躍程度模型
根據(jù)用戶常用在線時間段,在線時長,活躍程度等建立模型。

3、敏感數(shù)據(jù)訪問量模型
基于時間序列的敏感數(shù)據(jù)訪問情況,如用戶訪問svn服務器,下載代碼的情況,重要數(shù)據(jù)的修改上傳情況等建立時間序列模型。

二、對帳號的特征進行畫像
根據(jù)建立的正常模型以及對帳號的使用環(huán)境的一些基本要素的判別,來對帳號進行畫像。根據(jù)各種審計日志,主機日志,數(shù)據(jù)流信息,分析出過去常用的ip,常用工具,地理位置等使用環(huán)境情況,從不同的角度對用戶進行勾畫,以確定其基本輪廓。
1、基本要素
帳號名稱、常用ip、所在城市、常用瀏覽器、常用的軟件客戶端、登錄頻率、活躍程度、訪問協(xié)議、常用訪問時間段。

2、動態(tài)更新
隨著時間的變化,用戶環(huán)境的變化,可能用戶的行為有很大變化,原有畫像有可能失效,就需要分析修正模型,并更新畫像,需要有合理的判別更新的機制,提高實際應用中的準確性。
三、基于帳號的關(guān)聯(lián)分析
1、業(yè)務的前后關(guān)聯(lián)
實際業(yè)務中,很多用戶的操作習慣存在前后關(guān)聯(lián)的情況,如先用ssh或遠程桌面帳號登錄服務器進行一些操作,生成文件,然后用ftp,sftp帳號下載文件。
業(yè)務系統(tǒng)的設(shè)計邏輯也會使不同帳號業(yè)務之間存在前后序列關(guān)系, 如用http帳號訪問web網(wǎng)站,會觸發(fā)網(wǎng)站通過一個帳號訪問后臺數(shù)據(jù)庫,這種業(yè)務操作之間存在關(guān)聯(lián)。通過Apriori等算法,分析帳號業(yè)務操作之間的關(guān)系。
2、同帳號異地多ip, 同ip多帳號的分析
通過大量數(shù)據(jù)分析,同一個ip有多個同類型的帳號登錄,公用帳號使用,異地登陸等很容易發(fā)現(xiàn)問題。如,一個帳號先在北京登錄,5分鐘后在成都登錄,密碼泄露的可能性較大。
3、帳號群體劃分
通過對帳號進行相似度計算和聚類分析,對帳號群體進行劃分,劃分成不同的帳號簇群。分析容易出現(xiàn)異常情況的簇群,更有利于綜合得出個體與群體的關(guān)系,更好地分析是用戶個體行為的變化還是用戶群體行為的變化。