文本分類總結(jié)

一、TextCNN→TextRNN→TextBiRNN→TextRCNN→Text-ATT-BI-RNN→HAN

1.TextCNN
特點:CNN的kernel_size類似N-gram中的N。以滑窗的方式+max_pooling的方式進行重要特征抽取。
結(jié)構(gòu):input→embedding→convolution→pooling→concated→softmax→output
缺點:CNN的窗口大小不好確定,如果size太小容易失去一些信息;如果太大,參數(shù)太多;textCNN無法解決文本時序特征的問題,對于長文本的處理效果并不好。

2.TextRNN
特點:textRNN的這個時間點的輸出,除了考慮這個時間點的輸入外還考慮了上一個時間點的信息,符合文本詞與詞 句與句之間有順序的結(jié)構(gòu)特征,可以處理長文本,解決了CNN對長文本處理效果不佳的問題
結(jié)構(gòu):input→embedding→RNN(LSTM/GRU)→concated→softmax→output
缺點:傳統(tǒng)的RNN是將輸入轉(zhuǎn)化成固定向量然后交給softmax進行分類,但是這樣的RNN存在一個問題:在訓(xùn)練時梯度的分量可以再長序列上指數(shù)增長或者衰減,這種梯度的消失或者爆炸的問題使得RNN模型難以在序列中學(xué)習(xí)到長距離的相關(guān)性。

LSTM:內(nèi)部有一個獨立的cell,僅在認(rèn)為必要時才公開其內(nèi)容,算是一種特殊的RNN

3.Text-Bi-RNN
雙向RNN
特點:相比于textRNN來說,text-bi-RNN既考慮了文本的上文內(nèi)容,也考慮了文本的下文內(nèi)容
結(jié)構(gòu):input→embedding→BIRNN(LSTM/GRU)→concated→softmax→output
缺點:與RNN類似

4.TextRCNN
特點:雙向循環(huán)獲取上下文信息,比傳統(tǒng)給予窗口的卷積神經(jīng)網(wǎng)絡(luò)更能減少噪聲,學(xué)習(xí)文本表示時可以大范圍保留詞序;其次使用最大池化層對文本信息進行抽取;自動判斷哪個特征在文本分類過程中起更重要的作用。
ps:個人疑問:論文作者在原文里面說:“RNN因為特性所以是一個biased model ” ;RNN一般是以最后一個cell的信息或者所有cell的信息取平均作為softmax的輸出 是否這樣也類似于max_pooling取最重要的信息。
結(jié)構(gòu):input→embedding→forward RNN + backward RNN →concate →convolution →maxpooling → concated→sigmoid →output
缺點:相比于attention來說,CNN捕捉信息的能力較差;

5.Text_attention_bi_RNN
特點:相比于RNN 采用了attention,attention機制語序模型在不同時間點的狀態(tài)之間有更直接的聯(lián)系,相比于CNN來說,有更強的重要信息捕捉能力。
結(jié)構(gòu):input →embedding→bi-RNN→attention→concated→sigmoid/softmax→output
缺點:

6.HAN
特點:1.利用文檔原有的層次結(jié)構(gòu)特征(句子由單詞組成,文檔由句子組成),先用單詞的詞向量表示句子,再此基礎(chǔ)上以句子向量構(gòu)建文檔的信息表示;2.在文檔中,句子對文檔的重要性貢獻有差異,詞對文檔貢獻度也有差異,而單詞和魚子的重要性依賴于上下文環(huán)境。相同的單詞在不同的上下文中所表現(xiàn)出的重要程度不一樣的。為了描述這個情況,引入注意力機制;3.文章分別從句子和文檔兩個層次使用attention機制;4.attention機制帶來的兩個有點:提升分類性能;提升識別出有影響最終分類決策的單詞和句子的重要性。
結(jié)構(gòu):input → embedding → wordencode → wordvector attention →sentenceencode→sentencevector attention → softmax →output

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容