傳統(tǒng)模型——基于情感詞典
- 輸入句子,預(yù)處理
- 文本分詞
- 訓(xùn)練情感詞典(積極消極詞匯、否定詞、程度副詞等)
- 判斷規(guī)則(算法模型)
- 情感分類
文本預(yù)處理
使用正則表達(dá)式,過(guò)濾掉我們不需要的信息(如 Html 標(biāo)簽等)
句子自動(dòng)分詞
- jieba 中文分詞
- HanLp 中文分詞
- 中科院分詞
- ...
載入情感詞典
- 積極情感詞典
- 消極情感詞典
- 否定詞典
- 程度副詞詞典
文本情感分類
- 每個(gè)積極情感詞語(yǔ)賦予權(quán)重 1
- 每個(gè)消極情感詞語(yǔ)賦予權(quán)重 -1
- 否定詞會(huì)導(dǎo)致權(quán)值反號(hào)
- 程度副詞則讓權(quán)值加倍
- 最后,根據(jù)總權(quán)值的正負(fù)性來(lái)判斷句子的情感
優(yōu)化點(diǎn)
- 考慮句子的類型(祈使句、疑問(wèn)句等)
- 每個(gè)詞語(yǔ)(考慮主語(yǔ)、謂語(yǔ)、賓語(yǔ)等)
- 情感詞典的自動(dòng)擴(kuò)充(無(wú)監(jiān)督式的詞頻統(tǒng)計(jì))
通過(guò)已有的模型對(duì)評(píng)論數(shù)據(jù)進(jìn)行情感分類,然后在同一類情感(積極或消極)的評(píng)論集合中統(tǒng)計(jì)各個(gè)詞語(yǔ)的出現(xiàn)頻率,最后將積極、消極評(píng)論集的各個(gè)詞語(yǔ)的詞頻進(jìn)行對(duì)比。某個(gè)詞語(yǔ)在積極評(píng)論集中的詞頻相當(dāng)?shù)?,在消極評(píng)論集中的詞頻相當(dāng)高,那么我們就有把握將該詞語(yǔ)添加到消極情感詞典中,或者說(shuō),賦予該詞語(yǔ)負(fù)的權(quán)值。
深度學(xué)習(xí)模型
標(biāo)準(zhǔn)模型
- 標(biāo)注語(yǔ)料的收集
- 模型閾值選取問(wèn)題
- word2vec 將詞語(yǔ)轉(zhuǎn)換為向量
- CNN、RNN、LSTM 等網(wǎng)絡(luò)模型,特征抽取句子向量
算法步驟
- 分詞
- 詞向量
- 句向量(LSTM)
- 分類
分詞 OR 不分詞
“端到端”的模型:能夠直接將原始數(shù)據(jù)和標(biāo)簽輸入,然后讓模型自己完成一切過(guò)程——包括特征的提取、模型的學(xué)習(xí)。
- one hot:以字為單位,不分詞,將每個(gè)句子截?cái)酁?00字(不夠則補(bǔ)空字符串),然后將句子以“字-one hot”的矩陣形式輸入到LSTM模型中進(jìn)行學(xué)習(xí)分類
- one embedding:以字為單位,不分詞,,將每個(gè)句子截?cái)酁?00字(不夠則補(bǔ)空字符串),然后將句子以“字-字向量(embedding)“的矩陣形式輸入到LSTM模型中進(jìn)行學(xué)習(xí)分類
- word embedding:以詞為單位,分詞,,將每個(gè)句子截?cái)酁?00詞(不夠則補(bǔ)空字符串),然后將句子以“詞-詞向量(embedding)”的矩陣形式輸入到LSTM模型中進(jìn)行學(xué)習(xí)分類
更好的更新方案
設(shè)定一個(gè)閾值為0.6,那么模型對(duì)某個(gè)正樣本的輸出大于0.6,我就不根據(jù)這個(gè)樣本來(lái)更新模型了,模型對(duì)某個(gè)負(fù)樣本的輸出小于0.4,我也不根據(jù)這個(gè)樣本來(lái)更新模型了,只有在0.4~0.6之間的,才讓模型更新,這時(shí)候模型會(huì)更“集中精力”去關(guān)心那些“模凌兩可”的樣本,從而使得分類效果更好