摘要
使用雙向長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)從推文中抽取特征。我們是第一個使用詞嵌入加長短期機(jī)器網(wǎng)絡(luò)從推文中抓取特征的工作。本方法不需要手工提取特征,并且效果較為良好
介紹
原有的工作需要多種特征進(jìn)行分析。本文提出了一個遞歸神經(jīng)網(wǎng)絡(luò),利用詞嵌入的雙向LSTM模型,不需要有關(guān)賬戶信息,社交網(wǎng)絡(luò),歷史行為有先驗知識。
- 提出了BiLSTM使用連接對于輸出連接兩個方向相反的隱藏層,輸出層能同時獲得正向和反向量方向的信息。
- 使用詞嵌入技術(shù),而不是傳統(tǒng)的特征工程或者更復(fù)雜的自然語言處理工具,使得能嘔更快,更容易的進(jìn)行機(jī)器人檢測。
方法
詞嵌入模型
使用GLoVE詞嵌入模型,將文本轉(zhuǎn)化為表征向量。本文中使用了預(yù)訓(xùn)練模型GLoVE。我們定義我們的定義我們的詞匯表是在所有訓(xùn)練樣本中以及預(yù)訓(xùn)練的200維GloVE存在的交集。
提出的模型

模型圖
數(shù)據(jù)集是cresci-2017
網(wǎng)絡(luò)模型參數(shù)設(shè)置
- 學(xué)習(xí)率是0.01
- 網(wǎng)絡(luò)結(jié)構(gòu)是200個循環(huán)單元一個全連接softmax層
- dropout是0.5最后到達(dá)0.1
- 30個epoch
- batch是64
對比結(jié)果

實驗結(jié)果圖
總結(jié)
本文的想法就是使用推文來進(jìn)行社交機(jī)器人識別,于是想到了雙向循環(huán)神經(jīng)網(wǎng)絡(luò)。我覺得可以聯(lián)合賬戶信息,以及新的預(yù)訓(xùn)練模型說不定可以有新的結(jié)果產(chǎn)出。