變分自編碼器(VAE和LSTM)和聚類方法進(jìn)行機(jī)器人檢測-(RTbust: Exploiting Temporal Patterns for Botnet Detection on Twitter)

摘要

從推特上學(xué)習(xí)推特的行為模式,收集了1000條推特數(shù)據(jù)。設(shè)計了一個新的方法來區(qū)分賬號。通過“RTT”技術(shù)發(fā)現(xiàn)來人為操作的轉(zhuǎn)推模式和懷疑的3種機(jī)器人模式。我們的技術(shù)使用無監(jiān)督的特征提取和集群。用LSTM自動編碼器將轉(zhuǎn)推的時間特征轉(zhuǎn)化成隱藏特征向量。然后使用集群技術(shù)來將密集的聚在一起的標(biāo)記為機(jī)器賬號。還用RTBust發(fā)現(xiàn)了一個數(shù)據(jù)集種兩個未知機(jī)器人網(wǎng)絡(luò)。

介紹

原來的以單一賬號進(jìn)行分類的方法不再有效。組方法比較有效,但是需要收集大量數(shù)據(jù),所以應(yīng)該在數(shù)據(jù)和有效性之間取得平衡。我們的貢獻(xiàn)如下:

  • 使用了簡單但有效的可視化方法分析了數(shù)據(jù)集種用戶的轉(zhuǎn)推行為。
  • 設(shè)計了一個組分析技術(shù)能夠檢測有相似轉(zhuǎn)推行為的賬號。
  • 與當(dāng)前流行的技術(shù)進(jìn)行了對比。證明了有效性
  • 運用我們的方法發(fā)現(xiàn)了兩個之前沒有發(fā)現(xiàn)的機(jī)器人網(wǎng)絡(luò)。

數(shù)據(jù)收集和注釋

收集了從2018年六月18開始的兩會走的數(shù)據(jù)共9989819條轉(zhuǎn)推,一共1446250個賬號分享。主要收集了語言是意大利的轉(zhuǎn)推,但是本收集方法其實語言無關(guān)。手動檢查每天大量轉(zhuǎn)發(fā)的用戶,很快發(fā)現(xiàn)有機(jī)器人,去除了良性機(jī)器人賬號,并且只保留每天轉(zhuǎn)推2-50個的賬號。剩下了63762個賬戶。使用無監(jiān)督技術(shù)進(jìn)行分析,雖然不需要標(biāo)簽但還是手動注釋了一部分?jǐn)?shù)據(jù),總共注釋了1000個賬號51%的機(jī)器人賬號,49%的機(jī)器賬號。

轉(zhuǎn)推活動的模式

為了進(jìn)行可視化,用橫軸是轉(zhuǎn)推特時間戳縱軸是原始推特時間戳繪制散點圖來進(jìn)行可視化,觀看不同的賬號是否有差異。


不同賬號繪制的RTT散點圖
  • 圖b是正常的真實賬號的轉(zhuǎn)推行為模式
  • c形成的紅線是每當(dāng)有新推特發(fā)布,就有賬號立即轉(zhuǎn)發(fā)
  • d形成的三角形說明了,總是有賬號在固定的時間間隔對內(nèi)容進(jìn)行轉(zhuǎn)發(fā)
  • e和f也類似(不太重要)

Retweet-Buster

本文的檢測方法并不是識別上述的圖片來區(qū)分賬號,而是開發(fā)一種檢測方法,自動發(fā)現(xiàn)時間模式上潛在的行為模式,從而來區(qū)分賬號。


模型架構(gòu)

本文首先將用戶轉(zhuǎn)推特的時間戳化成一個時間序列。如果沒轉(zhuǎn)就是0。如果轉(zhuǎn)發(fā)了推特就用轉(zhuǎn)推的發(fā)布時間減去開始收集數(shù)據(jù)的時間的絕對值。而整個時間序列的粒度為秒。所以非常稀疏,于是用RLE技術(shù)即用負(fù)數(shù)值代替0的個數(shù)。從而將其壓縮。得到壓縮的表示。
然后利用無監(jiān)督的變分自編碼解碼(VAEs)技術(shù)來將壓縮的時間序列轉(zhuǎn)化為潛在的特征向量。如上圖,因為本技術(shù)的左圖神經(jīng)網(wǎng)路用于抽取,右側(cè)用于重建,所以中間的向量就可以作為潛在的特征向量。
最后有了潛在的特征向量,用HDBSCAN進(jìn)行聚類,將有明顯的聚成一類的賬號標(biāo)記為機(jī)器賬號,噪聲數(shù)據(jù)為真實賬號。整個檢測模型圖如上圖。
同時分別使用PCA,TICA作為抽取潛在特征的方法,以及手動抽取12個特征,分別替換編碼解碼的方法,做了實驗。

實驗和結(jié)果

不同大小的潛在特征向量對性能的影響

首先對1000個標(biāo)注的賬號進(jìn)行實驗,分析超參數(shù),潛在特征向量的維度對性能的影響。發(fā)現(xiàn)大小是8的時候性能較好。于是接下來選擇8作為潛在向量特征維數(shù)。

與兩個組方法和一個經(jīng)典方法進(jìn)行對比。結(jié)果如下:

與其他方法對比結(jié)果

發(fā)現(xiàn)VAE的RTbust方法效果最好。但是recall相對來說差一點點。

然后與T-SNE方法進(jìn)行對比,說明本方法的有效性,如圖:

與T-SNE方法對比圖

圖中兩種方法在分類中雖稍有分歧,但是能表現(xiàn)出高度的分類一致性。

利用此技術(shù)分析未標(biāo)注數(shù)據(jù),發(fā)現(xiàn)了兩個沒有被標(biāo)注的機(jī)器賬戶群

揭示的兩個機(jī)器人網(wǎng)絡(luò)的RTT圖

并且繪制RTT圖確實能發(fā)現(xiàn)其表現(xiàn)出了被懷疑的時間特征。

討論

可視化懷疑的特征

通過對時間模式的可視化,能夠?qū)τ谖磥頂?shù)據(jù)集的標(biāo)注任務(wù)有價值,并且可以作為將機(jī)器人從社交網(wǎng)絡(luò)中一處的一個證據(jù)。而且相較于其他幾個研究不要那么多數(shù)據(jù)。

通用性和魯棒性

因為是無監(jiān)督技術(shù),所以通用性和魯棒性都還不錯。

可解釋性

通過RTT可以對本方法的做出一定的可解釋性。

總結(jié)

  • 提出了一個可視化方法,能夠有效的看出推特賬號的轉(zhuǎn)推的行為模式。并且發(fā)現(xiàn)了三個可疑的行為模式特征。并且本方法也可以用來解釋黑盒的機(jī)器人檢測
  • 接下來設(shè)計了一個組分析方法Retweet-Buster。
  • 未來將改進(jìn)僅僅通過是否聚類就進(jìn)行標(biāo)記賬號的方法。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容