本文的貢獻(xiàn)

提出了一個(gè)框架從社交媒體的數(shù)據(jù)和用戶的元數(shù)據(jù)包括朋友，推特內(nèi)容和情感，網(wǎng)絡(luò)模式，和活動(dòng)時(shí)間序列中抽取的大量特征進(jìn)行分析。
我們檢測(cè)系統(tǒng)使用現(xiàn)存的公開數(shù)據(jù)集和收集的手動(dòng)標(biāo)注的數(shù)據(jù)集進(jìn)行測(cè)試。使用新標(biāo)注的數(shù)據(jù)對(duì)使用已有數(shù)據(jù)訓(xùn)練出的模型進(jìn)行了重新訓(xùn)練。
使用不同的模型以及判斷分?jǐn)?shù)的閾值來分辨人和機(jī)器人，我們預(yù)測(cè)推特上存在9%-15%比例的社交機(jī)器人。
分析用戶在社交連接和信息流向上表現(xiàn)出的不同行為：人類更愿意與像人一樣的賬戶進(jìn)行交互。一些機(jī)器人更加隨機(jī)的選擇連接的用戶
聚類分析，揭示來不同賬戶能分類成不同的組。

機(jī)器人檢測(cè)框架

本框架使用的數(shù)據(jù)是從推特api中收集的并且將其處理成六大類共1150個(gè)特征。六大類特征分別為：基于用戶特征，朋友特征，網(wǎng)絡(luò)特征，時(shí)間特征，內(nèi)容和語(yǔ)言特征，情感特征。

模型評(píng)估

數(shù)據(jù)集使用了honeypot方法中使用的公開數(shù)據(jù)集,以及通過API搜索出來的手工標(biāo)注的數(shù)據(jù)集。模型的輸入是代表一個(gè)用戶賬號(hào)所有特征的數(shù)值向量。輸出是一個(gè)0-1之間的分?jǐn)?shù)，更高的分?jǐn)?shù)表示賬號(hào)是一個(gè)機(jī)器人。通過五折交叉驗(yàn)證和曲線下面積來評(píng)估模型的精確度，隨機(jī)森林能得到最好的分類表現(xiàn)。所以本文使用的模型是隨機(jī)森林模型。

大規(guī)模評(píng)估

先使用honeypot數(shù)據(jù)集訓(xùn)練處一個(gè)模型，然后在通過加入手工標(biāo)注的數(shù)據(jù)，更新訓(xùn)練數(shù)據(jù)，在訓(xùn)練一個(gè)新的模型來對(duì)更加復(fù)雜的賬戶進(jìn)行分類。

數(shù)據(jù)集收集方法

在2015年收集了三個(gè)月的數(shù)據(jù)，收集的用戶數(shù)據(jù)必須最少有200條以上的推特，并且在三個(gè)月的窗口期有90篇推文。然后收集了這些用戶最近的200條推文，和100個(gè)提及的用戶。

手工標(biāo)注

一共標(biāo)注了3000個(gè)賬戶

使用標(biāo)注數(shù)據(jù)評(píng)估模型

我們?cè)诿恳粋€(gè)機(jī)器人得分十分位評(píng)估分類的準(zhǔn)確性，在0-0.4范圍內(nèi)，分類一致性（分類結(jié)果和實(shí)際結(jié)果一致）達(dá)到了90以上，在0.8-1達(dá)到了70%以上。通過這這差異能夠看出人類在識(shí)別類似機(jī)器人的行為上更加困難。

image.png

上圖基線是從honeypot數(shù)據(jù)集訓(xùn)練得到的模型，使用曲線下面積評(píng)估不同數(shù)據(jù)集中訓(xùn)練得到的模型的精確度

模型精確度的數(shù)據(jù)集有效性

使用honeypot數(shù)據(jù)集和手工注釋的數(shù)據(jù)集的不同比例的混合以及五折交叉驗(yàn)證來評(píng)估對(duì)應(yīng)模型的精確性。Annotation：僅使用手工注釋和標(biāo)注的數(shù)據(jù)集訓(xùn)練模型。Merged：合并了蜜罐和手工注釋的數(shù)據(jù)集進(jìn)行訓(xùn)練和測(cè)試。Mixture：手動(dòng)注釋和蜜罐數(shù)據(jù)集的不同比例的混合，精確度從0.9-0.94

image.png

分析了兩個(gè)數(shù)據(jù)集人類賬號(hào)和機(jī)器人賬號(hào)的分布，老數(shù)據(jù)集和新數(shù)據(jù)集中人類分?jǐn)?shù)的分布相似，但是新數(shù)據(jù)集的機(jī)器人分布更靠近人類一些，導(dǎo)致如果想要同時(shí)對(duì)兩個(gè)數(shù)據(jù)集進(jìn)行分類，需要推斷合適的閾值。
通過對(duì)成對(duì)對(duì)模型在手動(dòng)標(biāo)注對(duì)數(shù)據(jù)集中對(duì)比了賬號(hào)對(duì)分?jǐn)?shù)。正如預(yù)期所有對(duì)模型給人類打低分給機(jī)器人打高分。高相關(guān)系數(shù)表明模型的一致性。

image.png

對(duì)比不同模型的分?jǐn)?shù)，以及閾值和皮爾森相關(guān)系數(shù)，能夠看出不同的模型對(duì)于分類是相似的，具有相關(guān)的一致性。
對(duì)于所有的特征進(jìn)行分析，對(duì)于10000個(gè)賬戶隨機(jī)挑選子集做100次隨機(jī)實(shí)驗(yàn)，前十個(gè)特征能夠達(dá)到0.9的AUC精度。轉(zhuǎn)推網(wǎng)絡(luò)中態(tài)度和提及推特的內(nèi)容都是很重要的特征。用戶與評(píng)優(yōu)進(jìn)行交互的特征也有很強(qiáng)的預(yù)測(cè)性。

機(jī)器人的存在比例

image.png

通過混合人工標(biāo)注數(shù)據(jù)和蜜罐數(shù)據(jù)，選取對(duì)應(yīng)不同的最優(yōu)閾值，對(duì)于機(jī)器人分類，可以看出當(dāng)混合較少時(shí)，即人工數(shù)據(jù)集較多，此時(shí)能夠?qū)?fù)雜的新機(jī)器人有一定預(yù)測(cè)能力，預(yù)測(cè)比例有15%，但很可能有很多更為復(fù)雜的機(jī)器人沒有被識(shí)別出來，當(dāng)大部分都是蜜罐數(shù)據(jù)的時(shí)候，機(jī)器人占比大約在9%。所以預(yù)測(cè)推特中機(jī)器人存在的比例在9%-15%。

用戶的互動(dòng)的特征

image.png

圖5和分析不同得分段，如0.0-0.1這條線對(duì)應(yīng)人類賬號(hào)，這些賬號(hào)的朋友們打分得出他們的朋友幾乎也都是人類賬號(hào)。而相對(duì)來說機(jī)器人賬號(hào)大量的朋友都是機(jī)器人賬號(hào)，少部分是人類賬號(hào)。在追隨者上分析，人類賬號(hào)的追隨者很大一部分是人類賬號(hào)，但是也有一些復(fù)雜行為的機(jī)器人也在follow人類賬號(hào)。而也有一部分人follow機(jī)器人賬號(hào)，因?yàn)橛幸徊糠秩讼矚g閱讀機(jī)器人的相關(guān)推送，造成了這個(gè)情況。
從圖7分析人類提及的用戶大部分是人類賬戶少部分是機(jī)器賬戶，而機(jī)器人賬戶提及的基本是復(fù)雜的機(jī)器人賬戶。同時(shí)機(jī)器人基本轉(zhuǎn)發(fā)的都是機(jī)器人賬戶。而人類賬戶會(huì)少部分轉(zhuǎn)發(fā)機(jī)器人賬戶。

賬戶聚類

最后通過對(duì)賬戶進(jìn)行聚類來分析數(shù)據(jù)集中不同的種類

image.png

C0-C2是不同種類的機(jī)器人。C3是混雜了人類和機(jī)器人的類型。其他類型都是人類賬號(hào)。

總結(jié)自--Varol等, 《Online Human-Bot Interactions》.

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

人類和機(jī)器人：檢測(cè)，估計(jì)和表征（Online Human-Bot Interactions: Detection, Estimation, and Characterization）

人類和機(jī)器人：檢測(cè)，估計(jì)和表征（Online Human-Bot Interactions: Detection, Estimation, and Characterization）

本文的貢獻(xiàn)

機(jī)器人檢測(cè)框架

模型評(píng)估

大規(guī)模評(píng)估

數(shù)據(jù)集收集方法

手工標(biāo)注

使用標(biāo)注數(shù)據(jù)評(píng)估模型

模型精確度的數(shù)據(jù)集有效性

機(jī)器人的存在比例

用戶的互動(dòng)的特征

賬戶聚類

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

人類和機(jī)器人：檢測(cè)，估計(jì)和表征（Online Human-Bot Interactions: Detection, Estimation, and Characterization）

本文的貢獻(xiàn)

機(jī)器人檢測(cè)框架

模型評(píng)估

大規(guī)模評(píng)估

數(shù)據(jù)集收集方法

手工標(biāo)注

使用標(biāo)注數(shù)據(jù)評(píng)估模型

模型精確度的數(shù)據(jù)集有效性

機(jī)器人的存在比例

用戶的互動(dòng)的特征

賬戶聚類

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

人類和機(jī)器人：檢測(cè)，估計(jì)和表征（Online Human-Bot Interactions: Detection, Estimation, and Characterization）