摘要

從推特上學(xué)習(xí)推特的行為模式，收集了1000條推特數(shù)據(jù)。設(shè)計了一個新的方法來區(qū)分賬號。通過“RTT”技術(shù)發(fā)現(xiàn)來人為操作的轉(zhuǎn)推模式和懷疑的3種機(jī)器人模式。我們的技術(shù)使用無監(jiān)督的特征提取和集群。用LSTM自動編碼器將轉(zhuǎn)推的時間特征轉(zhuǎn)化成隱藏特征向量。然后使用集群技術(shù)來將密集的聚在一起的標(biāo)記為機(jī)器賬號。還用RTBust發(fā)現(xiàn)了一個數(shù)據(jù)集種兩個未知機(jī)器人網(wǎng)絡(luò)。

介紹

原來的以單一賬號進(jìn)行分類的方法不再有效。組方法比較有效，但是需要收集大量數(shù)據(jù)，所以應(yīng)該在數(shù)據(jù)和有效性之間取得平衡。我們的貢獻(xiàn)如下：

使用了簡單但有效的可視化方法分析了數(shù)據(jù)集種用戶的轉(zhuǎn)推行為。
設(shè)計了一個組分析技術(shù)能夠檢測有相似轉(zhuǎn)推行為的賬號。
與當(dāng)前流行的技術(shù)進(jìn)行了對比。證明了有效性
運用我們的方法發(fā)現(xiàn)了兩個之前沒有發(fā)現(xiàn)的機(jī)器人網(wǎng)絡(luò)。

數(shù)據(jù)收集和注釋

收集了從2018年六月18開始的兩會走的數(shù)據(jù)共9989819條轉(zhuǎn)推，一共1446250個賬號分享。主要收集了語言是意大利的轉(zhuǎn)推，但是本收集方法其實語言無關(guān)。手動檢查每天大量轉(zhuǎn)發(fā)的用戶，很快發(fā)現(xiàn)有機(jī)器人，去除了良性機(jī)器人賬號，并且只保留每天轉(zhuǎn)推2-50個的賬號。剩下了63762個賬戶。使用無監(jiān)督技術(shù)進(jìn)行分析，雖然不需要標(biāo)簽但還是手動注釋了一部分?jǐn)?shù)據(jù)，總共注釋了1000個賬號51%的機(jī)器人賬號，49%的機(jī)器賬號。

轉(zhuǎn)推活動的模式

為了進(jìn)行可視化，用橫軸是轉(zhuǎn)推特時間戳縱軸是原始推特時間戳繪制散點圖來進(jìn)行可視化，觀看不同的賬號是否有差異。

不同賬號繪制的RTT散點圖

圖b是正常的真實賬號的轉(zhuǎn)推行為模式
c形成的紅線是每當(dāng)有新推特發(fā)布，就有賬號立即轉(zhuǎn)發(fā)
d形成的三角形說明了，總是有賬號在固定的時間間隔對內(nèi)容進(jìn)行轉(zhuǎn)發(fā)
e和f也類似（不太重要）

Retweet-Buster

本文的檢測方法并不是識別上述的圖片來區(qū)分賬號，而是開發(fā)一種檢測方法，自動發(fā)現(xiàn)時間模式上潛在的行為模式，從而來區(qū)分賬號。

模型架構(gòu)

本文首先將用戶轉(zhuǎn)推特的時間戳化成一個時間序列。如果沒轉(zhuǎn)就是0。如果轉(zhuǎn)發(fā)了推特就用轉(zhuǎn)推的發(fā)布時間減去開始收集數(shù)據(jù)的時間的絕對值。而整個時間序列的粒度為秒。所以非常稀疏，于是用RLE技術(shù)即用負(fù)數(shù)值代替0的個數(shù)。從而將其壓縮。得到壓縮的表示。
然后利用無監(jiān)督的變分自編碼解碼（VAEs）技術(shù)來將壓縮的時間序列轉(zhuǎn)化為潛在的特征向量。如上圖，因為本技術(shù)的左圖神經(jīng)網(wǎng)路用于抽取，右側(cè)用于重建，所以中間的向量就可以作為潛在的特征向量。
最后有了潛在的特征向量，用HDBSCAN進(jìn)行聚類，將有明顯的聚成一類的賬號標(biāo)記為機(jī)器賬號，噪聲數(shù)據(jù)為真實賬號。整個檢測模型圖如上圖。
同時分別使用PCA，TICA作為抽取潛在特征的方法，以及手動抽取12個特征，分別替換編碼解碼的方法，做了實驗。

實驗和結(jié)果

不同大小的潛在特征向量對性能的影響

首先對1000個標(biāo)注的賬號進(jìn)行實驗，分析超參數(shù)，潛在特征向量的維度對性能的影響。發(fā)現(xiàn)大小是8的時候性能較好。于是接下來選擇8作為潛在向量特征維數(shù)。

與兩個組方法和一個經(jīng)典方法進(jìn)行對比。結(jié)果如下：

與其他方法對比結(jié)果

發(fā)現(xiàn)VAE的RTbust方法效果最好。但是recall相對來說差一點點。

然后與T-SNE方法進(jìn)行對比，說明本方法的有效性，如圖：

與T-SNE方法對比圖

圖中兩種方法在分類中雖稍有分歧，但是能表現(xiàn)出高度的分類一致性。

利用此技術(shù)分析未標(biāo)注數(shù)據(jù)，發(fā)現(xiàn)了兩個沒有被標(biāo)注的機(jī)器賬戶群

揭示的兩個機(jī)器人網(wǎng)絡(luò)的RTT圖

并且繪制RTT圖確實能發(fā)現(xiàn)其表現(xiàn)出了被懷疑的時間特征。

討論

可視化懷疑的特征

通過對時間模式的可視化，能夠?qū)τ谖磥頂?shù)據(jù)集的標(biāo)注任務(wù)有價值，并且可以作為將機(jī)器人從社交網(wǎng)絡(luò)中一處的一個證據(jù)。而且相較于其他幾個研究不要那么多數(shù)據(jù)。

通用性和魯棒性

因為是無監(jiān)督技術(shù)，所以通用性和魯棒性都還不錯。

可解釋性

通過RTT可以對本方法的做出一定的可解釋性。

總結(jié)

提出了一個可視化方法，能夠有效的看出推特賬號的轉(zhuǎn)推的行為模式。并且發(fā)現(xiàn)了三個可疑的行為模式特征。并且本方法也可以用來解釋黑盒的機(jī)器人檢測
接下來設(shè)計了一個組分析方法Retweet-Buster。
未來將改進(jìn)僅僅通過是否聚類就進(jìn)行標(biāo)記賬號的方法。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

變分自編碼器（VAE和LSTM）和聚類方法進(jìn)行機(jī)器人檢測-（RTbust: Exploiting Temporal Patterns for Botnet Detection on Twitter）

變分自編碼器（VAE和LSTM）和聚類方法進(jìn)行機(jī)器人檢測-（RTbust: Exploiting Temporal Patterns for Botnet Detection on Twitter）

摘要

介紹

數(shù)據(jù)收集和注釋

轉(zhuǎn)推活動的模式

Retweet-Buster

實驗和結(jié)果

與兩個組方法和一個經(jīng)典方法進(jìn)行對比。結(jié)果如下：

然后與T-SNE方法進(jìn)行對比，說明本方法的有效性，如圖：

利用此技術(shù)分析未標(biāo)注數(shù)據(jù)，發(fā)現(xiàn)了兩個沒有被標(biāo)注的機(jī)器賬戶群

討論

可視化懷疑的特征

通用性和魯棒性

可解釋性

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

變分自編碼器（VAE和LSTM）和聚類方法進(jìn)行機(jī)器人檢測-（RTbust: Exploiting Temporal Patterns for Botnet Detection on Twitter）

摘要

介紹

數(shù)據(jù)收集和注釋

轉(zhuǎn)推活動的模式

Retweet-Buster

實驗和結(jié)果

與兩個組方法和一個經(jīng)典方法進(jìn)行對比。結(jié)果如下：

然后與T-SNE方法進(jìn)行對比，說明本方法的有效性，如圖：

利用此技術(shù)分析未標(biāo)注數(shù)據(jù)，發(fā)現(xiàn)了兩個沒有被標(biāo)注的機(jī)器賬戶群

討論

可視化懷疑的特征

通用性和魯棒性

可解釋性

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

與兩個組方法和一個經(jīng)典方法進(jìn)行對比。結(jié)果如下：

然后與T-SNE方法進(jìn)行對比，說明本方法的有效性，如圖：

利用此技術(shù)分析未標(biāo)注數(shù)據(jù)，發(fā)現(xiàn)了兩個沒有被標(biāo)注的機(jī)器賬戶群