使用雙向長短期記憶神經(jīng)網(wǎng)絡(luò)和詞嵌入模型檢測機(jī)器人(Twitter Bot Detection Using Bidirectional Long Short-term Memory Neural ...

摘要

使用雙向長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)從推文中抽取特征。我們是第一個使用詞嵌入加長短期機(jī)器網(wǎng)絡(luò)從推文中抓取特征的工作。本方法不需要手工提取特征,并且效果較為良好

介紹

原有的工作需要多種特征進(jìn)行分析。本文提出了一個遞歸神經(jīng)網(wǎng)絡(luò),利用詞嵌入的雙向LSTM模型,不需要有關(guān)賬戶信息,社交網(wǎng)絡(luò),歷史行為有先驗知識。

  • 提出了BiLSTM使用連接對于輸出連接兩個方向相反的隱藏層,輸出層能同時獲得正向和反向量方向的信息。
  • 使用詞嵌入技術(shù),而不是傳統(tǒng)的特征工程或者更復(fù)雜的自然語言處理工具,使得能嘔更快,更容易的進(jìn)行機(jī)器人檢測。

方法

詞嵌入模型

使用GLoVE詞嵌入模型,將文本轉(zhuǎn)化為表征向量。本文中使用了預(yù)訓(xùn)練模型GLoVE。我們定義我們的定義我們的詞匯表是在所有訓(xùn)練樣本中以及預(yù)訓(xùn)練的200維GloVE存在的交集。

提出的模型

模型圖

數(shù)據(jù)集是cresci-2017

網(wǎng)絡(luò)模型參數(shù)設(shè)置

  • 學(xué)習(xí)率是0.01
  • 網(wǎng)絡(luò)結(jié)構(gòu)是200個循環(huán)單元一個全連接softmax層
  • dropout是0.5最后到達(dá)0.1
  • 30個epoch
  • batch是64

對比結(jié)果

實驗結(jié)果圖

總結(jié)

本文的想法就是使用推文來進(jìn)行社交機(jī)器人識別,于是想到了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)。我覺得可以聯(lián)合賬戶信息,以及新的預(yù)訓(xùn)練模型說不定可以有新的結(jié)果產(chǎn)出。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容