文本情感分類

傳統(tǒng)模型——基于情感詞典

  • 輸入句子,預(yù)處理
  • 文本分詞
  • 訓(xùn)練情感詞典(積極消極詞匯、否定詞、程度副詞等)
  • 判斷規(guī)則(算法模型)
  • 情感分類

文本預(yù)處理

使用正則表達(dá)式,過(guò)濾掉我們不需要的信息(如 Html 標(biāo)簽等)

句子自動(dòng)分詞

  • jieba 中文分詞
  • HanLp 中文分詞
  • 中科院分詞
  • ...

載入情感詞典

  • 積極情感詞典
  • 消極情感詞典
  • 否定詞典
  • 程度副詞詞典

文本情感分類

  • 每個(gè)積極情感詞語(yǔ)賦予權(quán)重 1
  • 每個(gè)消極情感詞語(yǔ)賦予權(quán)重 -1
  • 否定詞會(huì)導(dǎo)致權(quán)值反號(hào)
  • 程度副詞則讓權(quán)值加倍
  • 最后,根據(jù)總權(quán)值的正負(fù)性來(lái)判斷句子的情感

優(yōu)化點(diǎn)

  • 考慮句子的類型(祈使句、疑問(wèn)句等)
  • 每個(gè)詞語(yǔ)(考慮主語(yǔ)、謂語(yǔ)、賓語(yǔ)等)
  • 情感詞典的自動(dòng)擴(kuò)充(無(wú)監(jiān)督式的詞頻統(tǒng)計(jì))
    通過(guò)已有的模型對(duì)評(píng)論數(shù)據(jù)進(jìn)行情感分類,然后在同一類情感(積極或消極)的評(píng)論集合中統(tǒng)計(jì)各個(gè)詞語(yǔ)的出現(xiàn)頻率,最后將積極、消極評(píng)論集的各個(gè)詞語(yǔ)的詞頻進(jìn)行對(duì)比。某個(gè)詞語(yǔ)在積極評(píng)論集中的詞頻相當(dāng)?shù)?,在消極評(píng)論集中的詞頻相當(dāng)高,那么我們就有把握將該詞語(yǔ)添加到消極情感詞典中,或者說(shuō),賦予該詞語(yǔ)負(fù)的權(quán)值。

深度學(xué)習(xí)模型

標(biāo)準(zhǔn)模型

  • 標(biāo)注語(yǔ)料的收集
  • 模型閾值選取問(wèn)題
  • word2vec 將詞語(yǔ)轉(zhuǎn)換為向量
  • CNN、RNN、LSTM 等網(wǎng)絡(luò)模型,特征抽取句子向量

算法步驟

  • 分詞
  • 詞向量
  • 句向量(LSTM)
  • 分類

分詞 OR 不分詞

“端到端”的模型:能夠直接將原始數(shù)據(jù)和標(biāo)簽輸入,然后讓模型自己完成一切過(guò)程——包括特征的提取、模型的學(xué)習(xí)。

  • one hot:以字為單位,不分詞,將每個(gè)句子截?cái)酁?00字(不夠則補(bǔ)空字符串),然后將句子以“字-one hot”的矩陣形式輸入到LSTM模型中進(jìn)行學(xué)習(xí)分類
  • one embedding:以字為單位,不分詞,,將每個(gè)句子截?cái)酁?00字(不夠則補(bǔ)空字符串),然后將句子以“字-字向量(embedding)“的矩陣形式輸入到LSTM模型中進(jìn)行學(xué)習(xí)分類
  • word embedding:以詞為單位,分詞,,將每個(gè)句子截?cái)酁?00詞(不夠則補(bǔ)空字符串),然后將句子以“詞-詞向量(embedding)”的矩陣形式輸入到LSTM模型中進(jìn)行學(xué)習(xí)分類

更好的更新方案

設(shè)定一個(gè)閾值為0.6,那么模型對(duì)某個(gè)正樣本的輸出大于0.6,我就不根據(jù)這個(gè)樣本來(lái)更新模型了,模型對(duì)某個(gè)負(fù)樣本的輸出小于0.4,我也不根據(jù)這個(gè)樣本來(lái)更新模型了,只有在0.4~0.6之間的,才讓模型更新,這時(shí)候模型會(huì)更“集中精力”去關(guān)心那些“模凌兩可”的樣本,從而使得分類效果更好

修正的交叉熵?fù)p失

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容